# Исследование надежности заемщиков.

## Обзор данных

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

Входные данные от банка — статистика о платёжеспособности клиентов.



In [257]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
data.head(15) #выведем на экран первые 15 строк таблицы

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


В датасете **12 столбцов**:

* **children** — количество детей в семье
* **days_employed** — общий трудовой стаж в днях
* **dob_years** — возраст клиента в годах
* **education** — уровень образования клиента
* **education_id** — идентификатор уровня образования
* **family_status** — семейное положение
* **family_status_id** — идентификатор семейного положения
* **gender** — пол клиента
* **income_type** — тип занятости
* **debt** — имел ли задолженность по возврату кредитов
* **total_income** — ежемесячный доход
* **purpose** — цель получения кредита

In [258]:
data.info() #общие сведения о таблице

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [259]:
print('Количество пропущенных значений в столбце days_employed: ', len(data[data['days_employed'].isna()]))
print('Количество пропущенных значений в столбце total_income: ', len(data[data['total_income'].isna()]))

Количество пропущенных значений в столбце days_employed:  2174
Количество пропущенных значений в столбце total_income:  2174


В столбце **days_employed** и **total_income** есть пропуски и их количество совпадает. Вероятно пропуски в данных о доходах связаны с отсутсвием данных о трудовом стаже.

In [260]:
data[(data['days_employed'].isna()) & (data['total_income'].isna())].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2174 entries, 12 to 21510
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          2174 non-null   int64  
 1   days_employed     0 non-null      float64
 2   dob_years         2174 non-null   int64  
 3   education         2174 non-null   object 
 4   education_id      2174 non-null   int64  
 5   family_status     2174 non-null   object 
 6   family_status_id  2174 non-null   int64  
 7   gender            2174 non-null   object 
 8   income_type       2174 non-null   object 
 9   debt              2174 non-null   int64  
 10  total_income      0 non-null      float64
 11  purpose           2174 non-null   object 
dtypes: float64(2), int64(5), object(5)
memory usage: 220.8+ KB


Действительно все пропуски в столбце о стаже соответсвуют пропускам в столбце о доходах.

In [261]:
data[data['days_employed'].isna()].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


Пропуски в столбцах выглядят случайными. Вероятно отсутствие этих данных связанно с ошибками при сборе данных. Стоит уточнить у источника данных.

## Предобработка данных
### Заполнение пропусков

Посчитаем процент пропущенных значений в столбцах **days_employed** и **total_income**:

In [262]:
nan = len(data[data['days_employed'].isna()])/len(data)
print(f'Процент пропущенных значений в столбцах days_employed и total_income: {nan:.1%}')

Процент пропущенных значений в столбцах days_employed и total_income: 10.1%


Т.к. отсутсвует 10% данных о стаже и доходе, нельзя просто удалить эти строки, это повлияет на результаты исследования. Заменим пропущенные значения в столбце **total_income** на медианное значение (из-за возможных выбросов в количесвенных значениях медиана подойдет лучше, чем среднее значение). Пропуски в столбце **days_emploed** устраним позже, после работы с аномальными значениями.

In [263]:
median_income = data['total_income'].median()
data['total_income'] = data['total_income'].fillna(median_income)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Проверка данных на аномалии и исправления.

In [264]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,165159.5
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,97866.07
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,107798.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,195543.6
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


In [265]:
 data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

В столбце **children** 47 раз встречается отрицательное значение -1 ребенок, и 76 раз очень большое значение 20 детей. Отрицательное значение заменим на положительное, возможно минус появился в результате некорректной выгрузки (но даже если это не так, т.к. этих значений только 47, это изменение значительно не повлияет на результаты). В случае с 20 детьми, заменим значение на медианное, т.к. нет возможности уточнить характер ошибки и возможно это опечатка и это значение 0 или 2:

In [266]:
data['children'] = data['children'].replace(-1, 1)
children_median = data.loc[data.loc[:, 'children'] != 20]['children'].median()
data['children'] = data['children'].replace(20, children_median)
data['children'].value_counts()

0.0    14225
1.0     4865
2.0     2055
3.0      330
4.0       41
5.0        9
Name: children, dtype: int64

Теперь данные столбца выглядят адекватно

Внимательно рассмотрим столбец со значениями трудового стажа в днях **days_employed**:

In [267]:
data['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

Количество отрицательных значений:

In [268]:
data[data['days_employed']<0]['days_employed'].count()

15906

Это значительное количество отрицательных значений (возможно ошибка выгрузки), заменим их на положительные:

In [269]:
data['days_employed'] = data['days_employed'].abs()
data['days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

In [270]:
 401755.400475/365

1100.699727328767

Максимальное значение рабочего стажа в днях выглядит неадекватно большим. Но так как значения этого стобца не влияют на результаты проводимого исследования, можем оставить как есть. Заполним пропущенные значения медианой:

In [271]:
days_employed_median = data.loc[data.loc[:, 'days_employed'] != 0]['days_employed'].median()
data['days_employed'] = data['days_employed'].fillna(days_employed_median)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  float64
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


Больше в датасете нет пропущенных значений.

В столбце **dob_years** встречается минимальное значение возраста 0, возможно вызванное отсутсвием информации о возрасте клиента. Из-за того, что нет возможности уточнить характер ошибки заменим эти значения на медиану: 

In [272]:
dob_years_median = data.loc[data.loc[:, 'dob_years'] != 0]['dob_years'].median()
data['dob_years'] = data['dob_years'].replace(0, dob_years_median)
data['dob_years'].describe()


count    21525.000000
mean        43.495145
std         12.218213
min         19.000000
25%         34.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

Теперь в датафрейме остались только совершеннолетние заемщики

Если внимательно посмотреть на столбец **gender** с полом заемщиков можно увидеть одно некорректное значение:

In [273]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Похоже, что это полностью случайный пропуск, восстановить значение которого не представляется возможным, оставляем так.

### Изменение типов данных.

Заменим вещественный тип данных в столбце **total_income** и **days_employed** и **children** на целочисленный методом **astype()**.

In [274]:
data['total_income'] = data['total_income'].astype('int')
data['days_employed'] = data['days_employed'].astype('int')
data['children'] = data['children'].astype('int')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  int64  
 2   dob_years         21525 non-null  float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int64  
 11  purpose           21525 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


### Удаление дубликатов.

Сначала проверим и удалим явные дубликаты:

In [275]:
data.duplicated().sum()

54

В датасете только 54 явных дубликата, удалим их:

In [276]:
data = data.drop_duplicates()
data.duplicated().sum()

0

Рассмотрим уникальные значениея в текстовых столбцах **education**, **family_status**, **gender**, **income_type**, **purpose**:

In [277]:
data['education'].unique(), data['family_status'].unique(), data['gender'].unique(), data['income_type'].unique(), data['purpose'].unique()

(array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
        'неоконченное высшее', 'начальное', 'Высшее',
        'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
        'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
       dtype=object),
 array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
        'в разводе', 'Не женат / не замужем'], dtype=object),
 array(['F', 'M', 'XNA'], dtype=object),
 array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
        'безработный', 'предприниматель', 'студент', 'в декрете'],
       dtype=object),
 array(['покупка жилья', 'приобретение автомобиля',
        'дополнительное образование', 'сыграть свадьбу',
        'операции с жильем', 'образование', 'на проведение свадьбы',
        'покупка жилья для семьи', 'покупка недвижимости',
        'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
        'строительство собственной недвижимости', 'недвижимость',
        'строительство 

Так мы видим, что в столбце **education** одинаковые значения записанны разным регистром (возможная проблема сбора данных, повторные заявки). Приведем их к единому регистру:

In [278]:
data['education'] = data['education'].str.lower()
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Проверим на дубликаты обновленный датасет:

In [279]:
data.duplicated().sum()

17

И удалим их:

In [280]:
data = data.drop_duplicates()
data.duplicated().sum()

0

###  Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим новый датафрейм **data_ed** в котором каждому значению из **education** соответсвует значение из **education_id** :

In [281]:
data_ed = data[['education','education_id']]
data_ed = data_ed.drop_duplicates().reset_index(drop=True)
data_ed

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


Создадим новый датафрейм **data_fam** в котором каждому значению из **family_status** соответсвует значение из **family_status_id** :

In [282]:
data_fam = data[['family_status','family_status_id']]
data_fam = data_fam.drop_duplicates().reset_index(drop=True)
data_fam

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [283]:
data.drop(columns = ['education','family_status'],axis = 1, inplace=True)

### Категоризация дохода.

Запишем правило классификации дохода как функцию:

In [284]:
def total_income_category(total_income):
    """
    Возвращает категорию дохода по значению дохода total_income, используя правила:
    - от 0 до 30 000 - 'E';
    - от 30 001 до 50 000 - 'D';
    - от 50 001 до 200 000 - 'C';
    - от 200 001 до 1 000 000 - 'B';
    - 1 000 001 и выше — 'A'.
    """
    
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000:
        return 'D'
    if total_income <= 200000:
        return 'C'
    if total_income <= 1000000:
        return 'B'
    return 'A' 

протестируем:

In [285]:
total_income_category(50035), total_income_category(1000005),total_income_category(300000),total_income_category(0),total_income_category(40035)

('C', 'A', 'B', 'E', 'D')

Создаем столбец **total_income_category** с категориями дохода:

In [286]:
data['total_income_category'] = data['total_income'].apply(total_income_category)
data['total_income_category'].value_counts()

C    16016
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

### Категоризация целей кредита.

Рассмотрим цели кредита:

In [287]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

можно выделить основные категории:

-'операции с недвижимостью',
-'операции с автомобилем',
-'получение образования',
-'проведение свадьбы'.

In [288]:
def purpose_category(purpose):
    if 'жиль' in purpose:
        return 'операции с недвижимостью'
    if 'недвиж' in purpose:
        return 'операции с недвижимостью'
    if 'автомоб' in purpose:
        return 'операции с автомобилем'
    if 'образ' in purpose:
        return 'получение образования'
    return 'проведение свадьбы'  

сформируем столбец с категориями целей кредита **purpose_category**:

In [289]:
data['purpose_category'] = data['purpose'].apply(purpose_category)
data['purpose_category'].value_counts()

операции с недвижимостью    10811
операции с автомобилем       4306
получение образования        4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64

Чаще всего кредиты берут для операций с недвижимостью

## Ответы на вопросы.

**1. Есть ли зависимость между количеством детей и возвратом кредита в срок?**

Чтобы увидеть это построим сводную таблицу, в которой посчитаем доли должников для каждого количества детей:

In [290]:
data_pivot_children = data.pivot_table(index='children', values = 'debt', aggfunc=['count','sum'])
data_pivot_children['ratio'] = data_pivot_children['sum']/data_pivot_children['count']
data_pivot_children.sort_values(by='ratio')

Unnamed: 0_level_0,count,sum,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
5,9,0,0.0
0,14167,1071,0.075598
3,330,27,0.081818
1,4855,445,0.091658
2,2052,194,0.094542
4,41,4,0.097561


**Ответ**: данные для заемщиков с пятью детьми непоказательны, в остальном можем отметить, что люди без детей заметно реже допускают задолженности, с ростом количества детей не наблюдается прямого роста доли должников.

**2. Есть ли зависимость между семейным положением и возвратом кредита в срок?**

Построим сводную таблицу, в которой посчитаем доли должников для каждой категории семейного положения:

In [293]:
data_pivot_fam = data.pivot_table(index='family_status_id', values = 'debt', aggfunc=['count','sum'])
data_pivot_fam['ratio'] = data_pivot_fam['sum']/data_pivot_fam['count']
data_pivot_fam = data_pivot_fam.reset_index()
data_pivot_fam.columns=('family_status_id', 'count_debt','sum_debt','ratio_debt')
data_pivot_fam = data_fam.merge(data_pivot_fam, on = 'family_status_id', how = 'right')
data_pivot_fam = data_pivot_fam.drop(columns = ['family_status_id'])


In [295]:
data_pivot_fam.sort_values(by='ratio_debt')

Unnamed: 0,family_status,count_debt,sum_debt,ratio_debt
2,вдовец / вдова,959,63,0.065693
3,в разводе,1195,85,0.07113
0,женат / замужем,12339,931,0.075452
1,гражданский брак,4151,388,0.093471
4,Не женат / не замужем,2810,274,0.097509


**Ответ**: из таблицы видно что люди состоящие или ранее состоявшие в браке, допускают меньше задолженностей по кредитам, чем люди никогда не регистрировавшие брак.

**3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

Построим сводную таблицу, в которой посчитаем доли должников для каждой категории уровня дохода:

In [298]:
data_pivot_income = data.pivot_table(index='total_income_category', values = 'debt', aggfunc=['count','sum'])
data_pivot_income['ratio'] = data_pivot_income['sum']/data_pivot_income['count']
data_pivot_income.sort_values(by='ratio')

Unnamed: 0_level_0,count,sum,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
D,350,21,0.06
B,5041,356,0.070621
A,25,2,0.08
C,16016,1360,0.084915
E,22,2,0.090909


**Ответ**: из таблицы видно что люди с доходом от 30 000 до 50 000 самые ответсвенные заемщики. Среди людей с самым маленьким уровнем дохода до 30 000 больше всего должников, но эту выборку сложно назвать репрезентативной, как и для людей с доходом свыше 1 000 000.

**4. Как разные цели кредита влияют на его возврат в срок?**

Построим сводную таблицу, в которой посчитаем доли должников для каждой категории цели кредита:

In [299]:
data_pivot_purpose = data.pivot_table(index='purpose_category', values = 'debt', aggfunc=['count','sum'])
data_pivot_purpose['ratio'] = data_pivot_purpose['sum']/data_pivot_purpose['count']
data_pivot_purpose.sort_values(by='ratio')

Unnamed: 0_level_0,count,sum,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с недвижимостью,10811,782,0.072334
проведение свадьбы,2324,186,0.080034
получение образования,4013,370,0.0922
операции с автомобилем,4306,403,0.09359


**Ответ**: Из таблицы видно, что кредиты связанные с автомобилями самые необдуманные, по ним больше всего задолженостей. А вот среди кредиторов на операции с недвижимостью значительно выше доля ответственнных заемщиков, что может быть связанно с большими суммами займа и более высокими рисками.

## Общий вывод:

В ходе исследования были изучены полученные данные, обработаны аномалии и заполнены пропуски, удалены дубликаты, а также категоризированны по ключевым для исследования параметрам. По результатам можно сделать вывод, что эти факторы влияют на погашение кредита в срок:

- наличие и количество детей повышают риски невыплаты кредита в срок
- люди состоящие/состоявшие когда-либо в официальном браке реже невыплачивают кредиты
- наиболее удачными заемщиками будут люди, которые указывают средний уровень заработка
- кредиты на недвижимость реже всего невыплачиваются, а вот на автомобили напротив самые рискованные






