# Исследование надежности заемщиков.

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

**Цель исследования** — проверим гипотезы:
* Количество детей влияет на возврат кредита в срок.
* Семейное положение влияет на возврат кредита в срок.
* Уровень дохода влияет на возврат кредита в срок.
* Разные цели кредита влияют на его возврат в срок.

Исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Шаг 1. Обзор данных

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv(r'C:\Users\Olga\Desktop\prog\data.csv')# чтение файла с данными и сохранение в df

In [3]:
display(df.head(10))# получение первых 10 строк таблицы df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
df.info()# получение общей информации о данных в таблице df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, в таблице 12 столбцов. Тип данных во всех столбцах — float, int64, object.

Согласно документации к данным:
* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.


## Шаг 2 Предобработка данных
Исключение пропусков. Затем проверка данных на дубликаты.

In [5]:
print(df.isna().sum())# подсчёт пропусков
round(df.isna().sum() * 100 / len(df), 2) #Подсчет доли отсутствующих значений с округлением

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


children             0.0
days_employed       10.1
dob_years            0.0
education            0.0
education_id         0.0
family_status        0.0
family_status_id     0.0
gender               0.0
income_type          0.0
debt                 0.0
total_income        10.1
purpose              0.0
dtype: float64

In [6]:
df.duplicated().sum()# используем стандартный метод "duplicated()", выводим суммарное количество дубликатов по датафрейму:
display(df[df.duplicated()])#таблица явных дубликатов

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,,41,среднее,1,женат / замужем,0,F,сотрудник,0,,покупка жилья для семьи
4182,1,,34,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,,свадьба
4851,0,,60,среднее,1,гражданский брак,1,F,пенсионер,0,,свадьба
5557,0,,58,среднее,1,гражданский брак,1,F,пенсионер,0,,сыграть свадьбу
7808,0,,57,среднее,1,гражданский брак,1,F,пенсионер,0,,на проведение свадьбы
8583,0,,58,высшее,0,Не женат / не замужем,4,F,пенсионер,0,,дополнительное образование
9238,2,,34,среднее,1,женат / замужем,0,F,сотрудник,0,,покупка жилья для сдачи
9528,0,,66,среднее,1,вдовец / вдова,2,F,пенсионер,0,,операции со своей недвижимостью
9627,0,,56,среднее,1,женат / замужем,0,F,пенсионер,0,,операции со своей недвижимостью
10462,0,,62,среднее,1,женат / замужем,0,F,пенсионер,0,,покупка коммерческой недвижимости


In [7]:
df['education'].sort_values().unique()# Просмотр уникальных названий уровня образования клиента

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

**Выводы**

В каждой строке таблицы — данные о клиенте: его семейное положение,состав семьи,пол и возраст,данные об образовании и работе. 

Мы видим в столбцах days_employed и total_income пропущенные значения, причём они находятся в одних и тех же строках. Также в столбце education встречается ошибочное написание одного и того же значения.

### Шаг 2.1 Заполнение пропусков

In [8]:
#найдем ср. знач и медиану дохода и стажа соотв. и заполним соответственно значения NaN 
total_income_median = df['total_income'].median()
days_employed_mean = df['days_employed'].mean()
df['days_employed'] = df['days_employed'].fillna(days_employed_mean)
df['total_income'] = df['total_income'].fillna(total_income_median)
df.isna().sum()# подсчёт пропусков

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Пропуски в столбце "ежемесячный доход" могли появиться из-за нежелание респондента при проведении статистического опроса отвечать на вопросы о своих доходах.Данные в колонке "трудовой стаж" скорее всего являются случайным пропуском, т.к. пропущены значение о доходе.
Если удалить все строки, где есть пропущенные значения, можно потерять важные данные,поэтому заполнить пропуски медианным значением — лучшее решение для количественных переменных.Также нам нужно оценить значения,для этого подходят среднее арифметическое или медиана.

### Шаг 2.2 Проверка данных на аномалии и исправления.

In [9]:
display(df.describe())

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,165159.5
std,1.381587,133526.013419,12.574584,0.548138,1.420324,0.272661,97866.07
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2518.1689,33.0,1.0,0.0,0.0,107798.2
50%,0.0,-982.53172,42.0,1.0,0.0,0.0,145017.9
75%,1.0,63046.497661,53.0,1.0,1.0,0.0,195543.6
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Значение по 'children' - -1. Вероятно,что это отсутствующие значение, значит детей нет.
Максимальное значение по 'children' - 20. Возможно, что это ошибка,при внесении данных был добавлен 0.
Отрицательные значения по количеству отработанных дней 'days_employed'.

In [10]:
#заменим отрицательные числа на положительные в стаже
def negative_to_pozitive(value):
    if value < 0:
        value *= -1
        return value
    else:
        return value
df['days_employed'] = df['days_employed'].apply(negative_to_pozitive)
#заменим отрицательные числа в графе дети на о
df['children'] = df['children'].replace(-1, 0)
# в столбце количества детей 20 заменим медианным значением, так как 
#мы не знаем как возникла ошибка: случайно ввели лишний ноль при вводе 2 или же вместо 0 случайно поставили 20
children_median = df.loc[df.loc[:, 'children'] != 20]['children'].median()
df['children'] = df['children'].replace(20, children_median)

В данных есть аномалии, стоит об этом сообщить тем, кто делал выгрузку. Их количество не отразится на статических результатах исследования. Тем не менее, для большей точности, основные моменты исправлены.

In [11]:
df['days_employed'].abs()

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

### Шаг 2.3. Изменение типов данных.

In [12]:
df.dtypes
df['days_employed'] = df['days_employed'].astype('int')
df['total_income'] = df['total_income'].astype('int')
df['children'] = df['children'].astype('int')
df.dtypes

children             int32
days_employed        int32
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int32
purpose             object
dtype: object

В стаже,доходе и количестве детей стояли значения типа float - заменили их на int.Остальные типы данных в удобном формате.

### Шаг 2.4. Удаление дубликатов.

In [13]:
df['education'] = df['education'].str.lower()#приведем в единый формат столбец образование (уберем дубликаты, полученные из-за разного регистра букв)
df = df.drop_duplicates()#удаление дубликатов
#проверка уникальных значений категориальных столбцов
print(df['gender'].sort_values().unique())# проверка уникальных значений пола
print(df['family_status'].sort_values().unique())# проверка уникальных значений уровня образования клиента
print(df['income_type'].sort_values().unique())#проверка уникальных значений типа занятости
print(df['debt'].sort_values().unique())#проверка уникальных значений типа занятости
print(df['purpose'].sort_values().unique())#проверка уникальных значений типа занятости
print(df['education_id'].sort_values().unique())#проверка уникальных значений идентификатор уровня образования
df.loc[df.loc[:, 'gender'] == 'XNA']# нахождение строк, где вместо пола пропущенное значение

['F' 'M' 'XNA']
['Не женат / не замужем' 'в разводе' 'вдовец / вдова' 'гражданский брак'
 'женат / замужем']
['безработный' 'в декрете' 'госслужащий' 'компаньон' 'пенсионер'
 'предприниматель' 'сотрудник' 'студент']
[0 1]
['автомобили' 'автомобиль' 'высшее образование'
 'дополнительное образование' 'жилье' 'заняться высшим образованием'
 'заняться образованием' 'на покупку автомобиля'
 'на покупку подержанного автомобиля' 'на покупку своего автомобиля'
 'на проведение свадьбы' 'недвижимость' 'образование' 'операции с жильем'
 'операции с коммерческой недвижимостью' 'операции с недвижимостью'
 'операции со своей недвижимостью' 'покупка жилой недвижимости'
 'покупка жилья' 'покупка жилья для сдачи' 'покупка жилья для семьи'
 'покупка коммерческой недвижимости' 'покупка недвижимости'
 'покупка своего жилья' 'получение высшего образования'
 'получение дополнительного образования' 'получение образования'
 'приобретение автомобиля' 'профильное образование' 'ремонт жилью'
 'свадьба' 'свой авт

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


Привели значения образования в единый формат, проверили остальные столбцы.Нашлась 1 строка со значением пола - 'XNA' - скорее всего пропуск, но так как мы не знаем пол человека,поэтому оставляем значение как есть. Также были отрицательные значения в количестве детей и неадекватное значение 20 детей. Все их обработали.Уникальные значения цели кредита названы похожим образом, но имеют одинаковый смысл.Тогда цели кредита можно разделить на:'операции с автомобилем','операции с недвижимостью','проведение свадьбы','получение образования'.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим два новых датафрейма, в которых:
каждому уникальному значению из education соответствует уникальное значение education_id — в первом;
каждому уникальному значению из family_status соответствует уникальное значение family_status_id — во втором.
Удалим из исходного датафрейма столбцы education и family_status, оставив только их идентификаторы: education_id и family_status_id. 

In [14]:

dataframe1 = df[['education','education_id']]
dataframe1 = dataframe1.drop_duplicates().reset_index(drop=True)
display(dataframe1)
dataframe2 = df[['family_status','family_status_id']]
dataframe2 = dataframe2.drop_duplicates().reset_index(drop=True)
display(dataframe2)
df=df.drop(columns=['education','family_status'])
display(df.head(10))#проверка результата


Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,1,0,M,сотрудник,0,135823,образование
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи


### Шаг 2.6. Категоризация дохода.

На основании диапазонов, указанных ниже, создадим столбец total_income_category с категориями:
0–30000 — 'E';
30001–50000 — 'D';
50001–200000 — 'C';
200001–1000000 — 'B';
1000001 и выше — 'A'.

In [15]:
def make_income_category(total_income):
    if total_income < 30000:
        return 'E'
    if 30001 <= total_income < 50000:
        return 'D'
    if 50001 <= total_income < 200000:
        return 'C'
    if 200001 <= total_income < 1000000:
        return 'B'
    if total_income >= 1000001:
        return 'A'
    return ' '
#создадим столбец с категориями
df['income_category'] = df['total_income'].apply(make_income_category)
# проверка результата
df['income_category'].value_counts()

C    16016
B     5041
D      350
A       25
E       22
Name: income_category, dtype: int64

### Шаг 2.7. Категоризация количества детей.

Создадим категории по количеству детей ('children'):
-'нет детей' (0 детей);
-'один ребенок';
-'два ребенка'
-'многодетные'(>= 3 детей).

In [16]:
def make_children_category(children):
    if children ==1:
        return 'один ребенок'
    if children ==2:
        return 'два ребенка'
    if children >=3:
        return 'многодетные'
    if children <= 1:
        return 'нет детей'
    return ' '
#создадим столбец с категориями
df['children_category'] = df['children'].apply(make_children_category)

# проверка результата
df['children_category'].value_counts()


нет детей       14214
один ребенок     4808
два ребенка      2052
многодетные       380
Name: children_category, dtype: int64

### Шаг 2.8. Категоризация целей кредита.

Создадим функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:
'операции с автомобилем',
'операции с недвижимостью',
'проведение свадьбы',
'получение образования'.

In [17]:
def make_purpose_category(purpose):
    if 'автомоб'in purpose:
        return 'операция с автомобилем'
    if 'свадьб'in purpose:
        return 'проведение свадьбы'
    if 'образован'in purpose:
        return 'получение образования'
    return 'операции с недвижимостью'
#создадим столбец с категориями
df['purpose_category'] = df['purpose'].apply(make_purpose_category)

# проверка результата
df['purpose_category'].value_counts()

операции с недвижимостью    10811
операция с автомобилем       4306
получение образования        4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64

In [18]:
display(df.head(15))#просмотр овых столбцов

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,income_category,children_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,один ребенок,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,один ребенок,операция с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,нет детей,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,многодетные,получение образования
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,нет детей,проведение свадьбы
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B,нет детей,операции с недвижимостью
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B,нет детей,операции с недвижимостью
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C,нет детей,получение образования
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,два ребенка,проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,нет детей,операции с недвижимостью


**Выводы**
В данных были удалены дубликаты и заполнены все пропуски, т.к. они мешали провести финальную оценку.Найдены и скорректированы ошибочные значения.
Категоризировали датафрейм для проверки гипотез, по следующим данным:
-'education' и 'family_status_id' (изначально уже была категоризация по ним);
-по уровню зарплаты ('total_income');
-по количеству детей ('children');
-по целям кредита ('purpose');

Переходим к анализу полученных данных.

### Шаг 3.Ответы на вопросы.

#### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [19]:
df_pivot_children = df.pivot_table(index=['children_category'], values='debt', aggfunc=['sum','count'])#сводная таблица
df_pivot_children['ratio']=df_pivot_children['sum']/df_pivot_children['count']*100#подсчет отношения
display(df_pivot_children.head(10).sort_values(by='ratio'))

Unnamed: 0_level_0,sum,count,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
children_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
нет детей,1072,14214,7.54186
многодетные,31,380,8.157895
один ребенок,444,4808,9.234609
два ребенка,194,2052,9.454191


#### Вывод 1:

Когда детей нет, вероятность возникновения задолженности чуть ниже, чем если дети есть(1-2%). Если семьи многодетные задолженность по возврату кредитов возникает примерно на том же уровне,что и в случае отсутсвия детей. В случаях,когда в семье 1 или 2 ребенка, вероятность просрочки выше(примерно на 2%).
Разница среди всех значений минимальна. В целом,можно сказать,что клиенты без детей реже просрачивают оплату по кредиту, чем люди с детьми.

#### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [20]:
df_pivot_family_status = df.pivot_table(index=['family_status_id'], values='debt', aggfunc=['sum','count'])
df_pivot_family_status['ratio']=df_pivot_family_status['sum']/df_pivot_family_status['count']*100
display(df_pivot_family_status.head(10).sort_values(by='family_status_id'))

Unnamed: 0_level_0,sum,count,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,931,12339,7.545182
1,388,4151,9.347145
2,63,959,6.569343
3,85,1195,7.112971
4,274,2810,9.75089


#### Вывод 2: 
У клиентов без семьи (вдовец/вдова и люди в разводе) уровень просрочки более низкий. Самый высокий уровень задолженности у одиноких клиентов и состоящих в гражданском браке.
В целом можно сказать,что зависимость от семейного положения есть. Не женатые/незамужние клиенты имеют больший процент невозвратов кредита в срок. Разведенные или овдовевшие клиенты чаще платят в срок, чем люди находящиеся в браке.

#### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [21]:
df_pivot_income_category = df.pivot_table(index=['income_category'], values='debt', aggfunc=['sum','count'])
df_pivot_income_category['ratio']=df_pivot_income_category['sum']/df_pivot_income_category['count']*100
display(df_pivot_income_category.head(10).sort_values(by='income_category'))

Unnamed: 0_level_0,sum,count,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,2,25,8.0
B,356,5041,7.062091
C,1360,16016,8.491508
D,21,350,6.0
E,2,22,9.090909


#### Вывод 3: 
По данным сводной таблицы, можно сказать, что реже всего задолженность возникает у клиентов с более высоким и среднем доходом. У клиентов с самыми низкими доходами просрочки случаются чаще.Количество заявок, при самом высоком, так и при самом низком доходе, минимальны, клиенты данных категорий редко подают заявки на кредит.

#### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

In [22]:
df_pivot_purpose_category = df.pivot_table(index=['purpose_category'], values='debt', aggfunc=['sum','count'])
df_pivot_purpose_category['ratio']=df_pivot_purpose_category['sum']/df_pivot_purpose_category['count']*100
display(df_pivot_purpose_category.head(10).sort_values(by='ratio'))

Unnamed: 0_level_0,sum,count,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с недвижимостью,782,10811,7.233373
проведение свадьбы,186,2324,8.003442
получение образования,370,4013,9.220035
операция с автомобилем,403,4306,9.359034


#### Вывод 4: 
Заемщики, цель которых операции с недвижимостью, наиболее ответственны и менее склонны нарушать обязательства по выплатам кредита в срок.Задолженность, с целью операций с авто и получением образования, возникает чаще. Задолженности по кредиту на проведение свадьбы бывают реже - примерно как и в случае операций с недвижимостью.

## Общий вывод:

Клиент с наименьшим риском возникновения просрочки - это одинокий человек без детей,с более высоким доходом, цель займа которго операции с недвижимостью.Отклонение просроченных выплат в каждой категории примерно одинаков и составляет 1-3%.
Таким образом, несмотря на схожее процентное отклонение, наибольшее влияние на задолженность оказывает семейное положение и уровень дохода. Наименьшее влияние оказывают цели кредита и количество детей.