# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Шаг 1. Откройте файл с данными и изучите общую информацию

In [122]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [123]:
display(data.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Вывод**

Файл содержит 12 столбцов и 21525 строк с разными типами данных. Исходя из общей информации о файле в столбах 'days_employed' и 'total_income' встречаются пропуски данных, а в стобце 'days_employed' ещё содержатся отрицательные значения, но трудовой стаж не может быть отрицательным значением, следовательно это ошибка в данных. В столбцах days_employed и total_income содержатся вещественные числа, что также ослажняет работы с этими данными. Стоит обратить внимание и на столбц 'education', в нём значения написаны в разном регистре из-за этого одни и теже значения при обработке буду восприниматься как разные, это дубликаты, необходимо обработать их.

## Шаг 2. Предобработка данных

### Обработка пропусков

In [124]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [125]:
data['days_employed'].head(20)

0      -8437.673028
1      -4024.803754
2      -5623.422610
3      -4124.747207
4     340266.072047
5       -926.185831
6      -2879.202052
7       -152.779569
8      -6929.865299
9      -2188.756445
10     -4171.483647
11      -792.701887
12              NaN
13     -1846.641941
14     -1844.956182
15      -972.364419
16     -1719.934226
17     -2369.999720
18    400281.136913
19    -10038.818549
Name: days_employed, dtype: float64

В столбце 'days_employed' содержатся отрицательные значения, но трудовой стаж не может быть отрицательным значением, следовательно это ошибка в данных, седалем все значения данного столбца положительными

In [126]:
import numpy as np # ипортирую библиотеку numpy
data['days_employed'] = np.abs(data['days_employed']) # делаю абсалютные значения из значений столбца 'days_employed'
print(data['days_employed'].head(15))

0       8437.673028
1       4024.803754
2       5623.422610
3       4124.747207
4     340266.072047
5        926.185831
6       2879.202052
7        152.779569
8       6929.865299
9       2188.756445
10      4171.483647
11       792.701887
12              NaN
13      1846.641941
14      1844.956182
Name: days_employed, dtype: float64


In [127]:
data['total_income'].head(20)

0     253875.639453
1     112080.014102
2     145885.952297
3     267628.550329
4     158616.077870
5     255763.565419
6     240525.971920
7     135823.934197
8      95856.832424
9     144425.938277
10    113943.491460
11     77069.234271
12              NaN
13    130458.228857
14    165127.911772
15    116820.904450
16    289202.704229
17     90410.586745
18     56823.777243
19    242831.107982
Name: total_income, dtype: float64

В столбцах days_employed и total_income 2174 пропущенных значений. Количество пропусков в обоих столбах и номера строк где отсутсвуют значения совпадают. Столбец days_employed - это общий трудовой стаж в днях, столбец total_income — ежемесячный доход, видимо, эти клиенты не давали данные о данных параметрах. В данных столбцах хранятся количественные переменные, пропущенные значения в столбце days_employed заменим на средние значения из данного столбца. Также можно заменить пропущенные значения в столбце total_income средними значениями этого столбца.

Найдем среднее значение ежемесячного дохода (столбц total_income)

In [128]:
total_income_median = data['total_income'].dropna() # сначала удаляю пропуски из столбца 'total_income'
total_income_median = total_income_median.median() # нахожу среднее значение столбца 'total_income'
print(total_income_median)

145017.93753253992


Заполним пропуски в столбце total_income средними значениями этого столбца

In [129]:
data['total_income'] = data['total_income'].fillna(total_income_median)
print(data['total_income'].head(15))

0     253875.639453
1     112080.014102
2     145885.952297
3     267628.550329
4     158616.077870
5     255763.565419
6     240525.971920
7     135823.934197
8      95856.832424
9     144425.938277
10    113943.491460
11     77069.234271
12    145017.937533
13    130458.228857
14    165127.911772
Name: total_income, dtype: float64


Найдём среднее значение общего трудового стажа (столбец days_employed)

In [130]:
days_employed_median = data['days_employed'].dropna() # сначала удаляю пропуски из столбца 'days_employed'
days_employed_median = days_employed_median.median() # нахожу среднее значение столбца 'days_employed_mean'
print(days_employed_median)

2194.220566878695


Заполним пропуски в столбце days_employed средними значениями этого столбца

In [131]:
data['days_employed'] = data['days_employed'].fillna(days_employed_median)
print(data['days_employed'].head(15))

0       8437.673028
1       4024.803754
2       5623.422610
3       4124.747207
4     340266.072047
5        926.185831
6       2879.202052
7        152.779569
8       6929.865299
9       2188.756445
10      4171.483647
11       792.701887
12      2194.220567
13      1846.641941
14      1844.956182
Name: days_employed, dtype: float64


**Вывод**

Удалось заменить пропуски в столбцах 'days_employed' и 'total_income' на средние значения, также удалось устранить ошибки в данных в столбце 'days_employed'. В этом столбце были отрицательные значения, что не может быть в реальной жизни, поэтому заменил их на абсолютные значения из данного столбца.

### Замена типа данных

In [132]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В столбцах days_employed и total_income  содержатся вещественные числа, сделаем их целочисленными

In [133]:
data['days_employed'] = data['days_employed'].astype('int') # изменяю тип данных в столбце 'days_employed'
data['total_income'] = data['total_income'].astype('int') # изменяю тип данных в стлбце total_income' 
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


**Вывод**

Для этого применим метод astype, так как он может изменить тип данных во всем столбе сразу, в отличие от, например, метода int(), который изменяет тип одного значения. После проверки общей информации о data потдвердилось, что тип данных в столбцах 'total_income' и 'days_employed' изменился

### Обработка дубликатов

In [134]:
display(data.head(15))


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


В столбце 'education' значения написаны в разном регистре из-за этого одни и теже значения при обработке буду восприниматься как разные, переведм все значения данного столбца в нижний регистр

In [135]:
data['education'] = data['education'].str.lower()

Проверим результат применения метода lower() к столбцу 'education', а также проверим другие столбцы на наличие подобных дубликатов.

In [136]:
print(data['education'].value_counts())

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64


In [137]:
print(data['family_status'].value_counts())

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64


In [138]:
print(data['gender'].value_counts())

F      14236
M       7288
XNA        1
Name: gender, dtype: int64


In [139]:
print(data['income_type'].value_counts())

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64


In [140]:
print(data['purpose'].value_counts())

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

В других столбцах подобной проблемы нет. Удалим явные дубликаты из data

In [141]:
data.duplicated().sum() # подсчёт явных дубликатов

71

In [142]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых)
data = data.drop_duplicates().reset_index(drop=True)

In [143]:
data.duplicated().sum() # проверка на отсутствие дубликатов

0

**Вывод**

Удалось выявить и устранить проблему в регистрах стобца 'education', также удалили явные дубоикаты. 


### Лемматизация

Подробнее рассмотрим столбец 'purpose'

In [144]:
print(data['purpose'].value_counts())

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Как видим в столбце 'purpose' есть одинаковые цели получения кредита, но сформулированны они по разному. Необходимо применить лемматизацию, что бы исправить это

In [145]:
from pymystem3 import Mystem # импортируем библиотеку pymystem3
m = Mystem()

In [146]:
def category_purpose(row): # объявляем функцию с одним параметром: row
    lem_purpose = m.lemmatize(row['purpose']) # в переменной lem_purpose сохраняются леммы слов из столбца 'purpose'
    if 'автомобиль' in lem_purpose: # Функция возвращает категорию цели в зависимости от описанной цели в столбце 'purpose'
        return 'На автомобиль'
    if 'свадьба' in lem_purpose:
        return 'На свадьбу'
    if 'образование' in lem_purpose:
        return 'На образование'
    if ('жилье' in lem_purpose) or ('недвижимость' in lem_purpose):
        return 'На жилье'
    

**Вывод**

В этом этапе удалось выделили леммы в значениях столбца с цель получения кредита ('purpose').

### Категоризация данных

In [147]:
data['purpose_category'] = data.apply(category_purpose, axis = 1) # создаём столбец с категориями целей и в его ячейках записываем значения, возвращаемые функцией с помощью метода apply()
display(data.head(15)) # выводим первые 15 строк на экран

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,На жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,На автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,На жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,На образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,На свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,На жилье
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,На жилье
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,На образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,На свадьбу
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,На жилье


В столбце 'total_income' представленны данные о доходе заёмщиков, их также необходимо категоризировать, это поможет ответить на один из вопросов исследования

Для начала проверим какие минимальные и максимальные доходы имеют заёмщики

In [148]:
sorted_series = data['total_income'].sort_values() # сортирую по возрастанию доход заёмщиков
print(sorted_series.head())

14555    20667
12983    21205
16138    21367
1598     21695
14247    21895
Name: total_income, dtype: int64


In [149]:
sorted_series_decreasing = data['total_income'].sort_values(ascending=False) # сортирую по убыванию доход заёмщиков
print(sorted_series_decreasing.head())

12390    2265604
19548    2200852
9159     1726276
20742    1715018
17137    1711309
Name: total_income, dtype: int64


In [150]:
# Категоризирую доход заёмщиков на три части: 'Низкий доход', 'Средний доход', 'Высокий доход'
def category_total_income(income): # объявляем функцию с одним параметром: income

    if income <= 150000: # Функция возвращает уровень дохода в зависимости от дохода в столбце 'total_income'
        return 'Низкий доход'
    if income <= 300000:
        return 'Средний доход'
    return 'Высокий доход'

In [151]:
data['category_income'] = data['total_income'].apply(category_total_income)
display(data.head(15))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,category_income
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,На жилье,Средний доход
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,На автомобиль,Низкий доход
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,На жилье,Низкий доход
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,На образование,Средний доход
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,На свадьбу,Средний доход
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,На жилье,Средний доход
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,На жилье,Средний доход
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,На образование,Низкий доход
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,На свадьбу,Низкий доход
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,На жилье,Низкий доход


**Вывод**

На этом этапе категоризировали все цели на 4 вида: 'На автомобиль', 'На свадьбу', 'На образование', 'На жилье', в зависимости от формулировок целей в столбце 'purpose'

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Проверим как различаются заемщики по наличию и колличеству детей в семье

In [152]:
data['children'].unique() #выводим список уникальнвх значений столбца 'children'

array([ 1,  0,  3,  2, -1,  4, 20,  5])

В столбце 'children' имеется значение -1, такого количества детей не может быть, скорее всего ошибка при вводе данных, , седалем все значения данного столбца положительными

In [153]:
data['children'] = np.abs(data['children']) # делаю абсалютные значения из значений столбца 'children'
data['children'].unique() # ещё раз проверяем столбец 'children'

array([ 1,  0,  3,  2,  4, 20,  5])

In [154]:
data_pivot = data.pivot_table(index=['children'], values='debt', aggfunc=['count', 'mean']) # делаю сводную таблицу, которая покажет процент наличия задолжностей по кредиту, а также количество кредитов, в зависимости от колтчества детей
display(data_pivot) # вывожу на экран данную таблицу

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,14091,0.075438
1,4855,0.091658
2,2052,0.094542
3,330,0.081818
4,41,0.097561
5,9,0.0
20,76,0.105263


**Вывод** 

Данные распределены неровномерно, количество заёмщиков у которых нет детей почти в 2 раза больше, чем остальных (столбец 'count
debt'), поэтому сложно сделать однозначный вывод о влиянии наличия детей на возврат кредита. Если все таки посмотреть процент наличия задолжностей по кредиту (mean debt), то в распределение даже между заемщиами с разным количеством детей нет прямой зависимости. Исходя из этого, делаю вывод что связи между наличием детей и возвратом кредита в срок, исходя из представленных данных, нет, изучим другие факторы, которые могут влиять на возврат кредита всрок 

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [155]:
data_pivot = data.pivot_table(index=['family_status'], values='debt', aggfunc=['count', 'mean']) # делаю сводную таблицу, которая покажет процент наличия задолжностей по кредиту, а также количество кредитов, в зависимости от семейного положения
display(data_pivot) # вывожу на экран данную таблицу

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
Не женат / не замужем,2810,0.097509
в разводе,1195,0.07113
вдовец / вдова,959,0.065693
гражданский брак,4151,0.093471
женат / замужем,12339,0.075452


**Вывод**

Исходя из представленных данных, сложно сделать вывод о прямом влияние семейного положения на возврат кредита в срок, так как самый маленький процент наличия заодлжностей по кредитам у категорий: вдовец / вдова, женат / замужем и в разводе, в то время как у категорий не женат / не замужем и гражданский брак процент заодлжностей по кредитам выше, но тут скорее можно говорить о возрасте данных категорий, люди, как правило выходят замуж/женятся и разводятся, а так же становятся вдовом/вдовой в более старшем возрасте, а уровень дохода в старшем возрасте как правило выше, чем у молодых. Исходя из вышесказанного, прямой зависимости между семейным положением и возвратом кредита в срок нет

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [156]:
data_pivot = data.pivot_table(index=['category_income'], values='debt', aggfunc=['count', 'mean']) # делаю сводную таблицу, которая покажет процент наличия задолжностей по кредиту, а также количество кредитов, в зависимости от уровня дохода
display(data_pivot) # вывожу на экран данную таблицу

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
category_income,Unnamed: 1_level_2,Unnamed: 2_level_2
Высокий доход,1482,0.071525
Низкий доход,12270,0.082722
Средний доход,7702,0.080499


**Вывод**

Да, взаимосвязь выявлена, заёмщики с высоким доходом имеют самый низкий процент задолжностей по кредитам, а люди с низким доходом самый большой 

- Как разные цели кредита влияют на его возврат в срок?

In [157]:
data_pivot = data.pivot_table(index=['purpose_category'], values='debt', aggfunc=['count', 'mean']) # делаю сводную таблицу, которая покажет процент наличия задолжностей по кредиту, а также количество кредитов, в зависимости от целей кредита
display(data_pivot) # вывожу на экран данную таблицу

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
На автомобиль,4306,0.09359
На жилье,10811,0.072334
На образование,4013,0.0922
На свадьбу,2324,0.080034


**Вывод**

Исходя из данных, процент наличия задолжностей по кредитам, которые берут на жилье, меньше всего, затем идут кредиты, которые берут на свадьбу, проценты наличия задолжности по целям 'На автомобиль' и 'На образование' самые большие 

## Шаг 4. Общий вывод

В ходе исследования были даны ответы на 4 вопроса:

1. Есть ли зависимость между наличием детей и возвратом кредита в срок?
Оказалось, что связи между наличием детей и возвратом кредита в срок, исходя из представленных данных, нет.
2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
Прямой зависимости между семейным положением и возвратом кредита в срок не выявлено.
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
Да, взаимосвязь выявлена, заёмщики с высоким доходом имеют самый низкий процент задолжностей по кредитам, а люди с низким доходом самый большой.
4. Как разные цели кредита влияют на его возврат в срок?
Оказалось, что процент наличия задолжностей по кредитам, которые берут на жилье, меньше всего, затем идут кредиты, которые берут на свадьбу, проценты наличия задолжности по целям 'На автомобиль' и 'На образование' самые большие.

Таким образом, были даны ответы на все вопросы , поставленные перед началом исследования