# Исследование надежности заемщиков


С просьбой об исследовании обратился банк "Денюжки". Для улучшения его финансовых показателей требуется выяснить каким заёмщикам стоит отдавать приоритет при выдаче кредита. В ходе исследования нам предстоит изучить и обработать данные, чтобы они были пригодны для исследования, а также ответить на следующие вопросы:
* Есть ли зависимость между количеством детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?

## 1 Изучим общую информацию о данных

Импортируем библиотеку pandas и считаем данные из csv-файла в датафрейм `data`:

In [2]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

Выведем первые 20 строчек `data` на экран:

In [3]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Посмотрим основную информацию с помощью метода `info()`:

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Видим, что в таблице 12 столбцов:

* `children` — количество детей у заёмщика (тип данных `int64`);
* `days_employed` — рабочий стаж в днях (тип данных `float64`);  
* `dob_years` — возраст (тип данных `int64`);
* `education` — образование (тип данных `object`);
* `education_id` — id образования (тип данных `int64`);
* `family_status` — семейное положение (тип данных `object`);
* `family_status_id` — id семейного положения (тип данных `int64`);
* `gender` — пол (тип данных `object`);
* `income_type` — тип занятости (тип данных `object`);
* `debt` — задолженность (1 - да, 0 - нет) (тип данных `int64`);
* `total_income` — уровень дохода (тип данных `float64`);
* `purpose` — цель кредита (тип данных `object`). 

Количество значений в столбцах `days_employed` и `total_income` отличается по сравнению с остальными столбцами. Значит, в них есть пропущенные значения.

## 2 Предобработка данных

### 2.1 Обработка пропусков в столбце `total_income`

Выведем количество пропущенных значений для каждого столбца:

In [5]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Видим, что в столбцах `days_employed` и `total_income` пропуски равны и симметричны. Возможно, они появились из-за нежелания этих пользователей оставлять эти данные или из-за какой-то технической ошибки.

Для начала обработаем `total_income`. Он хранит данные о доходах, а на сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Медиана здесь предпочтительнее среднего, так как она позволяет избежать перекоса вычислениях, если в них встречаются редкие, но сильно отличающиеся от других значений, выбросы:

In [6]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### 2.2 Обработка аномальных значений

Выше, посмотрев первые 20 строчек, мы обнаружили аномальные значения, которые не отражают действительность и появились по какой-то ошибке. Это отрицательное количество дней трудового стажа в столбце `days_employed`. Стоит обработать эти значения методом `abs()` - он заменит все отрицательные значения положительными:

In [7]:
data['days_employed'] = data['days_employed'].abs()

После этого взглянем на то, какие у нас получились медианные значения трудового стажа для разных категорий занятости:

In [8]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У безработных и пенсионеров аномально большие значения. Но в данном случае можно оставить их "как есть" - столбец не понадобится для исследования.

Теперь взглянём на уникальные значения столбца `children`:

In [9]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Здесь есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения, из датафрейма `data`:

In [10]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

Убедимся, что артефакты удалены:

In [11]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### 2.3 Обработка пропусков в `days_employed`

Заполним пропуски в столбце `days_employed` медианными значениями каждого типа занятости `income_type`:

In [12]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

Проверим обработку пропусков - выведем количество пропущенных значений для каждого столбца:

In [13]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### 2.4 Изменение типов данных

Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`:

In [14]:
data['total_income'] = data['total_income'].astype(int)

### 2.5 Обработка дубликатов

Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру:

In [15]:
data['education'] = data['education'].str.lower()

Посмотрим, не появились ли дубликаты:

In [16]:
data.duplicated().sum()

71

Их не много, но они есть. Удалим их из датафрейма:

In [17]:
data = data.drop_duplicates()

### 2.6 Категоризация данных

На основании следующих диапазонов создадим в датафрейме `data` столбец `total_income_category` с категориями:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


Таким образом, кредитополучателю с доходом, скажем, 25000 будет присвоена категория `'E'`, а клиенту, получающему 235000, — `'B'`.

Для этих целей напишем функцию `categorize_income()`, которую применим при помощи `apply()` к столбцу `total_income` нашего датафрейма:

In [18]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [19]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

Также, выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`:

In [20]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` появится строка `'операции с автомобилем'`.

Для этих целей напишем функцию `categorize_purpose()`:

In [21]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [22]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### 3 Исследуем данные и ответим на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

Создадим сводную таблицу `children_pivot`, чтобы посчитать общее количество кредитов (count) и сколько из них не было возвращено 
в срок (sum). В качестве столбца для группировки берём столбец *children* из исходного датафрейма data. Необходимые значения (values) даст столбец с данными по задолженности *debt* - к нему применим функции 'count' и 'sum':

In [36]:
children_pivot = data.pivot_table(index = ['children'], values = 'debt', aggfunc = ('count', 'sum'))

# Для получения в процентном выражении значения зависимости просрочки кредита от количества детей поделим количество 
# невозвращенных вовремя займов из столбца ['sum'] на общее число займов столбца ['count']), а затем умножим на 100:
children_pivot['Depend from children'] = (children_pivot['sum'] / children_pivot['count']) * 100

# Есть строки с небольшим количеством данных. Например, заёмщиков с 4 детьми всего 41, из них не вернули деньги вовремя 4. По
# такой маленькой выборке некорректно будет делать выводы о их платёжеспособности в целом. Данных по семьям с 3 и 5 детьми тоже
# немного. В такой ситуации целесообразно выделить отдельную категорию заёмщиков - те, у кого 2 и более детей и в ней объединить
# данные по всем подходящим заёмщикам.
# Для этого преобразуем тип данных int в столбце ['children'] на str:
data['children'] = data['children'].astype(str)

# Переименуем строку столбца ['children'] co значением 2 на 2+:
data.loc[data['children'] == '2', 'children'] = '2+'

# Объединим данные строк, где детей 2 или больше: 
data.loc[data['children'] == '4', 'children'] = '2+'
data.loc[data['children'] == '3', 'children'] = '2+'
data.loc[data['children'] == '5', 'children'] = '2+'

# Отсортируем значения по убыванию в столбце ['Depend from children'], отображающем значение зависимости просрочки кредита от 
# количества детей:

children_pivot = children_pivot.sort_values(by=['Depend from children'], ascending=False)

# Сделаем таблицу более визуально понятной. Применим reset_index() для сбрасывания мультииндекса - тогда названия столбцов 
# будут отображаться примерно на одном уровне. Подпишем таблицу, применив опцию set_caption, чтобы было
# ясно какие именно данные она отображает. Скроем индекс строк, не несущий смысловой нагрузки, при помощи hide_index():

children_pivot = children_pivot.reset_index().set_caption('Влияние количества детей на возврат кредита в срок').hide_index()

# Выведем полученную таблицу на экран:

display(children_pivot)

children,count,sum,Depend from children
2+,2432,225,9.251645
1,4808,444,9.234609
0,14091,1063,7.543822


**Вывод:** Чем меньше значение в столбце 'Depend from children', тем лучше возвращает деньги в срок группа заёмщиков. 

По таблице мы видим, что чем больше детей - тем больше просрочек по кредитам. Среди семей с одним ребёнком просрочки у примерно 9,23% займов. Двое и больше детей поднимают это значение до 9,25%. А вот среди бездетных заёмщиков процент невозврата в срок ниже - 7,54%.

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [38]:
# Чтобы посчитать сколько всего было выдано кредитов заёмщикам с разным семейным положением (debt count) и какая часть из них
# не была возвращена в срок (debt sum) сгруппируем данные по столбцам 'family_status' и 'debt', применив к последнему agg()
# c функциями count и sum:
family_depend_debt = data.groupby('family_status').agg({'debt': ['count', 'sum']})

# Для получения значения зависимости просрочки кредита от семейного положения в % поделим количество невозвращенных вовремя
# займов (debt sum) на общее число займов (debt count), а затем умножим на 100:
family_depend_debt['Depend from family status'] = (family_depend_debt['debt']['sum'] / 
                                                   family_depend_debt['debt']['count']) * 100

# Строки с теми, кто в разводе и вдовцами содержат не слишком большое количество данных. Их целесообразно будет объединить в 
# новую группу по общему признаку 'были в браке'. Для этого переименуем строку 'в разводе':
data.loc[data['family_status'] == 'в разводе', 'family_status'] = 'были в браке'

# Теперь объединим данные строк 'были в браке' с 'вдовец/вдова': 
data.loc[data['family_status'] == 'вдовец / вдова', 'family_status'] = 'были в браке'

# Отсортируем значения по убыванию в столбце ['Depend from family status'], отображающем значение зависимости просрочки кредита 
# от семейного положения:
family_depend_debt = family_depend_debt.sort_values(by=['Depend from family status'], ascending=False)

# Подпишем таблицу, применив опцию set_caption, чтобы было ясно какие именно данные она отображает. Скроем индекс строк, не 
# несущий смысловой нагрузки при помощи hide_index():
family_depend_debt = (
    family_depend_debt
    .reset_index()
    .set_caption('Влияние семейного положения на возврат кредита в срок')
    .hide_index()
)
#Выведем полученную таблицу на экран:
display(family_depend_debt)

family_status,debt,debt,Depend from family status
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
Не женат / не замужем,2796,273,9.763948
гражданский брак,4134,385,9.313014
женат / замужем,12261,927,7.560558
были в браке,2140,147,6.869159


**Вывод:** Чем меньше значение в столбце `Depend from family status`, тем лучше возвращает деньги в срок группа заёмщиков. 
Наилучшие показатели по возвратам в срок у вдовцов и разведённых, объединённых в группе *были в браке* - в этой категории не возвращается вовремя примерно 6,87% кредитов.

Средний показатель невозврата кредитов в срок у тех, кто *женат/замужем* - 7,56%.

Хуже всего показали себя *неженатые/незамужние* заёмщики - не возвращают деньги в срок 9.76% из них. Немногим лучше ситуация в группе тех, кто состоит в *гражданском браке* - просрочки допускаются ими в 9,31% случаев.

<font color="green">✔️ Комментарий ревьювера    
Вывод верный. Если клиент не женат или не был женат - то вероятность просрочки выше </font>


#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [39]:
# Чтобы посчитать сколько всего было выдано кредитов заёмщикам с разным уровнем дохода (debt count) и какая часть из них не была
# возвращена в срок (debt sum) сгруппируем данные по столбцу 'total_income_category' и 'debt', применив к последнему метод agg()
# c функциями count и sum:
income_depend_debt = data.groupby('total_income_category').agg({'debt': ['count', 'sum']})

# Для получения в процентном выражении значения зависимости просрочки кредита от семейного положения поделим количество 
# невозвращенных вовремя займов (debt sum) на общее число займов (debt count), а затем умножим на 100:
income_depend_debt['Depend from category income'] = (income_depend_debt['debt']['sum'] / income_depend_debt['debt']['count']) \
* 100

# Отсортируем значения по убыванию в столбце ['Depend from category income'], отображающем значение зависимости просрочки 
# кредита от уровня дохода:
income_depend_debt = income_depend_debt.sort_values(by=['Depend from category income'], ascending=False)

# Подпишем таблицу, применив опцию set_caption, чтобы было ясно какие именно данные она отображает. Скроем индекс строк, не 
# несущий смысловой нагрузки при помощи hide_index():

income_depend_debt = (
    income_depend_debt
    .reset_index()
    .set_caption('Влияние уровня дохода на возврат кредита в срок')
    .hide_index()
)
    
#Выведем полученную таблицу на экран:
display(income_depend_debt)

total_income_category,debt,debt,Depend from category income
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
E,22,2,9.090909
C,15921,1353,8.49821
A,25,2,8.0
B,5014,354,7.060231
D,349,21,6.017192


**Вывод:** Чем меньше значение в столбце `Depend from category income`, тем лучше возвращает деньги в срок группа заёмщиков.

Данных в столбцах с категориями A, E и D слишком мало, чтобы сейчас сделать корректные выводы на их счёт. Однако объединять категории не стоит - в будущем данных может стать больше и мы сможем учесть и их, чтобы сделать расчет более точным, а также не упустить информацию, что увеличилось количество представителей какой-либо категории клиентов.

Сейчас же рассмотрим 2 категории с максимальным количеством данных - группы В и С. По ним мы видим, что люди с более высоким доходом возвращают кредиты лучше - у них 7.06% просрочек по сравнению с 8,5% у заемщиков из категории С.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [40]:
# Чтобы посчитать сколько всего было выдано кредитов заёмщикам с разными целями (debt count) и какая часть из них не была
# возвращена в срок (debt sum) сгруппируем данные по столбцу 'purpose_category' и 'debt', применив к последнему метод agg()
# c функциями count и sum:
purpose_category_depend = data.groupby('purpose_category').agg({'debt': ['count', 'sum']})

# Для получения в процентном выражении значения зависимости просрочки кредита от семейного положения поделим количество 
# невозвращенных вовремя займов (debt sum) на общее число займов (debt count), а затем умножим на 100:
purpose_category_depend['Depend from purpose'] = (purpose_category_depend['debt']['sum'] / purpose_category_depend['debt'] \
['count']) * 100

# Отсортируем значения по убыванию в столбце ['Depend from purpose'], отображающем значение зависимости просрочки 
# кредита от уровня дохода:
purpose_category_depend = purpose_category_depend.sort_values(by=['Depend from purpose'], ascending=False)

# Подпишем таблицу, применив опцию set_caption, чтобы было ясно какие именно данные она отображает. Скроем индекс строк, не
# несущий смысловой нагрузки при помощи hide_index():
purpose_category_depend = (
    purpose_category_depend
    .reset_index()
    .set_caption('Влияние целей кредита на его возврат в срок')
    .hide_index()

#Выведем полученную таблицу на экран:
display(purpose_category_depend)

purpose_category,debt,debt,Depend from purpose
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
операции с автомобилем,4279,400,9.347978
получение образования,3988,369,9.252758
проведение свадьбы,2313,183,7.911803
операции с недвижимостью,10751,780,7.255139


**Вывод:** Чем меньше значение в столбце `Depend from purpose`, тем лучше возвращает деньги в срок группа заёмщиков.

По таблице мы видим, что **лучше всего возвращают кредиты, взятые на операции с недвижимостью (7,26%) и проведение свадьбы (7,91%)**. Хуже ситуация обстоит с кредитами на получение образования - 9,25% из них не возвращаются вовремя. **Наихудший показатель** наблюдается в категории **операций с автомобилем** - здесь невозвраты достигают 9,35%.

## 4 Итоговые выводы

В ходе исследования данные по заёмщикам были проверены на наличие пропусков. Было обнаружено, что отсутствует равное и значительное количество данных (около 10%) в столбцах трудового стажа `days_employed` и дохода `total_income`. Такие проблемы могут говорить о программном сбое, когда потерялась или не была записана часть данных. Либо клиенты или сотрудники в определённых ситуациях могут игнорировать и не заполнять эти метрики. В любом случае - требуется поиск и устранение причины отсутствия информации в этих столбцах, так как неполнота данных влияет на результат. К тому же, если количество пропусков будет расти, ошибок в расчётах не избежать.

В столбцах трудового стажа `days_employed` и дохода `total_income` оставить пропуски или заменить на среднее арифметическое будет некорректно - так можно сильно исказить итоговый результат. Поскольку на сумму дохода `total_income` и трудовой стаж `days_employed` сильнее всего влияет тип занятости (income type), пропуски здесь заполнялись медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости "*сотрудник*" пропуск в столбце дохода (`total_income`) заполнялся медианным доходом среди всех "*сотрудников*".

Кроме отсутствия данных, были выявлены проблемы с аномальными значениями: отрицательный стаж (обработан при помощи метода **abc()**), удалены строки с чрезмерным (20) и отрицательным (-1) количеством детей у заёмщика. Столбец `total_income` для дальнейшей работы нуждался в преобразовании из вещественного в числовой тип данных. А часть данных дублировала друг друга, будучи написанной разным регистром (устранено функцией **str.lower()** и удалением дубликатов).

Эти проблемы могут указывать на опечатки сотрудников либо клиентов при заполнении формы. Решить этот вопрос может помочь, к примеру, введение упрощенного ввода - когда клиенту нужно выбрать значение из выпадащего списка.

##### После очистки данных от "мусора", для исследования было создано 2 функции:

1. def categorize_income - для облегчения анализа данных по заёмщикам с разнымм категориями дохода;
2. def categorize_purpose - для анализа возвращаемости займов под определённые категории целей.

В процессе исследования были выявлены условия, при которых клиенты лучше возвращают кредиты. Их можно использовать для построения модели заявочного скоринга - оценки платежеспособности заёмщика при подаче заявки на кредит. 

**Анализ данных показал, что надёжнее выдавать кредит заёмщикам, которые**:

1. Cостоят(7,56% просрочек) или состояли в браке (6,87% просрочек)
Такие показатели для состоявших в браке можно объяснить тем, что люди с подобным семейным положением, как правило, старше, имеют больший жизненный опыт. Будучи одинокими они не склонны полагаться на кого-то ещё, кроме себя, а значит более реалистично подходят к вопросу распределения денежных средств.

Категория женат/замужем с одной стороны уже имеет определённые обязательства перед супругом, что склоняет людей к большей осмотрительности. Но в браке люди склонны опираться не только на себя, но и на партнёра, что может приводить к просчётам в финансах, а значит и к просрочкам по платежам.

2. Не имеют детей (7.54% просрочек)
Когда детей нет, спланировать свой бюджет, а значит и платить по счетам, легче.

3. С более высоким (от 200 001) доходом (7.06% просрочек)
Имея большой доход, проще отдавать долги.

4. Цель кредита "Операции с недвижимостью" (7.26% просрочек) или "Проведение свадьбы"(7,91% просрочек)
Под операции с недвижимостью обычно берутся серьёзные суммы. Это предполагает некий фильтр со стороны банка: обращается внимание на наличие постоянного источника дохода, его уровень (может ли человек потянуть кредит), возраст(как долго человек сможет полноценно работать). Нередко страхование является обязательным условием от банка для получения ссуд под недвижимость - это тоже фактор погашения кредита, если человек вдруг не сможет платить. Таким образом, вполне закономерно, что невозвратов тут меньше, чем в других категориях - фильтр от банка отсеивает некоторую часть потенциально проблемных заёмщиков.

Кредит под проведение свадьбы возвращается несколько хуже, чем под недвижимость, но лучше, чем под образование или авто. Вероятно, это связано с более низкой суммой кредита под такую цель, чем в других категориях - его проще вернуть.

**Хуже всего возвращают кредиты заёмщики, у которых**:

1. Семейное положение "не женат/не замужем"(9.76% просрочек) и "гражданский брак"(9.31% просрочек) 

Худшую возвращаемость кредитов в этих категориях можно объяснить тем, что люди этих категорий, как правило, молоды и не скованы серьёзными обязательствами, что может приводить к легкомысленному обращению с деньгами в том числе.

2. Есть дети (от 9,23% и больше просрочек)

С детьми в жизнь часто приходят непредвиденные траты, порой ёмкие, что может приводить к ошибкам финансового планирования, дефициту семейного бюджета, а значит и к возникновению задолженностей. Чем больше детей, тем больше вероятность непредвиденных трат. С одним ребёнком задолженность встречается в 9,23%, а с 2 и более уже в 9,25%.

3. Доход ниже 200 000 (примерно 8,50% просрочек)
Меньше денег - меньше возможностей вернуть долг вовремя.

4. Цель кредита образование (9,25% просрочек) или автомобиль (9,35% просрочек)

Если человек берет кредит на образование, у него пока нет опыта и квалификации, что ведёт к более низкооплачиваемому, неквалифицированному труду. Плюс получение образования требует дополнительных затрат времени и сил, что может снижать уровень дохода, а значит и возможность платить за кредит.

А вероятной причиной просрочек по платежам за автомобиль может быть то, что машина, как и дети, является источником непредвиденных трат. Кроме того, кредитный автомобиль может быть продан с утаиванием информации о невыплате долга перед банком. В итоге покупатель может достаточно долго им владеть, прежде чем узнает о "*капающем*" долге. Также авто могут разбить или угнать - лишившись имущества, не все люди могут чувствовать себя обязанными платить по займу.