# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.


Входные данные представлены таблицей из примерно 20 тысяч строк следующего содержания:

- children          — количество детей в семье  

- days_employed     — общий трудовой стаж в днях

- dob_years         — возраст клиента в годах      

- education         — уровень образования клиента

- education_id      — идентификатор уровня образования  

- family_status     — семейное положение клиента

- family_status_id  — идентификатор семейного положения  

- gender            — пол

- income_type       — источник дохода клиента

- debt              — наличие долга 

- total_income      — общий доход клиента

- purpose           — цель взятия кредита



### Шаг 1. Изучение информации о данных. 

In [1]:
import pandas as pd
from pymystem3 import Mystem
import numpy as np

In [2]:
m = Mystem()

In [3]:
client_data = pd.read_csv('/datasets/data.csv') # тут может потребоваться добавить / в путь

In [4]:
client_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [5]:
client_data.columns # проверка на пробелы и пр.

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

In [6]:
client_data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [8]:
days_employed = client_data.days_employed # на всякий случай сохраняю в переменной
client_data.drop(['days_employed'], axis=1, inplace=True)

In [9]:
client_data.describe()

Unnamed: 0,children,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,0.0,0.0,0.0,0.0,20667.26
25%,0.0,33.0,1.0,0.0,0.0,103053.2
50%,0.0,42.0,1.0,0.0,0.0,145017.9
75%,1.0,53.0,1.0,1.0,0.0,203435.1
max,20.0,75.0,4.0,4.0,1.0,2265604.0


In [10]:
client_data.children.value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Замечены аномальные значения в количестве детей. Поскольку таких строк немного в масштабе таблицы, удалим их

In [11]:
client_data = client_data[(client_data.children <= 5) & (client_data.children >= 0)].reset_index(drop=True)

In [12]:
client_data.children.value_counts() # проверка

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

In [13]:
client_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21402 entries, 0 to 21401
Data columns (total 11 columns):
children            21402 non-null int64
dob_years           21402 non-null int64
education           21402 non-null object
education_id        21402 non-null int64
family_status       21402 non-null object
family_status_id    21402 non-null int64
gender              21402 non-null object
income_type         21402 non-null object
debt                21402 non-null int64
total_income        19240 non-null float64
purpose             21402 non-null object
dtypes: float64(1), int64(5), object(5)
memory usage: 1.8+ MB


### Вывод

Имеем достаточно большой датасет, число записей в колонках разнится, следовательно, имеем пропуски в некоторой части данных.
Типы данных в колонках выглядят в целом соответствующими названиям, сами названия выбраны удачно и написаны в едином стиле, без пробелов и т.п.

При изучении части таблицы в глаза бросаются сразу несколько проблем:

1) В колонке занятости наблюдаются чрезвычайно большие положительные числа, а большинство значений и вовсе отрицательные. Для данной задачи в расчетах эти данные не нужны, поэтому они были убраны вовсе; 

2) В данных по образованию у записей разный регистр, необходимо привести все значения к одному виду и затем избавиться от дубликатов в таблице;

3) Одна и та же цель кредита бывает описана разными словами, необходимо категоризировать эти данные и объединить одинаковые (например, свадьба и т.п.);

4) Отсутствуют данные примерно у 10% значений столбцов по занятости и доходу. Первый я отбросил, значения второго буду заполнять по среднему или медиане в зависимости от равномерности выборки;

5) Также в колонке с доходами используется излишне подробный для таких данных тип float. Его стоит преобразовать в int для удобства и меньшего потребления памяти;

6) В данных о количестве детей были обнаружены аномалии, такие строки были удалены.

### Шаг 2. Предобработка данных

### Обработка пропусков

Строк с пропусками около двух тысяч, т.е. приблизительно десятая часть всего датасета. Просто отбросить такой кусок данных не представляется возможным. Сперва немного осмотримся:

In [14]:
client_data[client_data.total_income.isnull()].head(10)

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


Можно предположить, что данные о работе потерялись при импорте данных из БД пенсионного фонда, к примеру.

Стоит выбор, использовать ли для заполнения пропусков данных средние данные или медиану. Сгруппируем данные по типам занятности и сравним полученные значения:

In [17]:
client_data.pivot_table(index='income_type', values='total_income',
                        aggfunc = [np.mean, np.median]).astype('int64')

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,total_income,total_income
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2
безработный,131339,131339
в декрете,53829,53829
госслужащий,170743,150420
компаньон,202585,172517
пенсионер,137198,118480
предприниматель,499163,499163
сотрудник,161365,142587
студент,98201,98201


Видим, что для некоторых категорий граждан медианые и средние значения совпадают, в то время как для других категорий медиана существенно ниже. Причины для этого могут быть разными, так, высокопоставленные чиновники или топ-менеджеры нефтяных компаний, являясь малочисленной группой, получают столь высокий доход, что смещают среднее значение для всей выборки. С пенсионерами ситуация интереснее, можно предположить, что среднее увеличивают военные пенсионеры или те же госслужащие, вышедшие на "заслуженный отдых".

В любом случае, медиана здесь - более честная метрика. Теперь заполним пропуски.

In [18]:
client_data['total_income'] = client_data.groupby('income_type')['total_income'] \
.apply(lambda group: group.fillna(group.median()))

# установил рекорд производительности, потратив 2 часа на эти 2 строки
# спасибо чуваку со StackOverflow за подсказку, а то б я кукухой поехал

In [19]:
client_data.info() # проверяю результат

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21402 entries, 0 to 21401
Data columns (total 11 columns):
children            21402 non-null int64
dob_years           21402 non-null int64
education           21402 non-null object
education_id        21402 non-null int64
family_status       21402 non-null object
family_status_id    21402 non-null int64
gender              21402 non-null object
income_type         21402 non-null object
debt                21402 non-null int64
total_income        21402 non-null float64
purpose             21402 non-null object
dtypes: float64(1), int64(5), object(5)
memory usage: 1.8+ MB


### Вывод

Пропуски количественных данных по доходам были заполнены характерными значениями - медианой, поскольку присутствуют выбросы и в данном случае использовать среднее было бы мене разумно.


### Замена типа данных

Приведем данные о доходах к целочисленному типу, используя метод astype():


In [20]:
client_data.total_income = client_data.total_income.astype(int)
client_data.head()

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


In [21]:
client_data.info() # проверяем, все ли в порядке

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21402 entries, 0 to 21401
Data columns (total 11 columns):
children            21402 non-null int64
dob_years           21402 non-null int64
education           21402 non-null object
education_id        21402 non-null int64
family_status       21402 non-null object
family_status_id    21402 non-null int64
gender              21402 non-null object
income_type         21402 non-null object
debt                21402 non-null int64
total_income        21402 non-null int64
purpose             21402 non-null object
dtypes: int64(6), object(5)
memory usage: 1.8+ MB


### Вывод

В колонке "общий доход" тип данных был заменен на целочисленный, чтобы улучшить читабельность таблицы и уменьшить потребление памяти. Кроме того, хочу отметить, что хранение данных с точностью выше сотых долей не имеет смысла в данном случае, поскольку деньги исчисляются в долларах/центах и т.п., т.е. выше точность не нужна. При больших же суммах потери в точности при подобной конверсии пренебрежимо малы.

### Обработка дубликатов

При первичном анализе было выявлено возможное присутствие дубликатов в таблице. Для начала посмотрим, какие столбцы подлежат обработке. "Цель кредита" не рассматриваем, поскольку в дальнейшем над этим столбцом будет выполняться лемматизация.

In [22]:
print (client_data.family_status.unique()) # тут все хорошо
print (client_data.education.unique()) # а тут необходимо удаление дубликатов

['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']
['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']


Для устранения дублирования названий приведем все данные в столбце к нижнему регистру.

In [23]:
client_data.education = client_data.education.str.lower()
client_data.education.unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [24]:
client_data.groupby('education').count().iloc[:,0] # проверка

education
высшее                  5237
начальное                282
неоконченное высшее      741
среднее                15136
ученая степень             6
Name: children, dtype: int64

In [25]:
client_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21402 entries, 0 to 21401
Data columns (total 11 columns):
children            21402 non-null int64
dob_years           21402 non-null int64
education           21402 non-null object
education_id        21402 non-null int64
family_status       21402 non-null object
family_status_id    21402 non-null int64
gender              21402 non-null object
income_type         21402 non-null object
debt                21402 non-null int64
total_income        21402 non-null int64
purpose             21402 non-null object
dtypes: int64(6), object(5)
memory usage: 1.8+ MB


Теперь уберем полностью дублирующие друг друга строки (дубликаты)

In [26]:
client_data = client_data.drop_duplicates().dropna().reset_index(drop=True)

In [27]:
client_data.info() # проверка

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21330 entries, 0 to 21329
Data columns (total 11 columns):
children            21330 non-null int64
dob_years           21330 non-null int64
education           21330 non-null object
education_id        21330 non-null int64
family_status       21330 non-null object
family_status_id    21330 non-null int64
gender              21330 non-null object
income_type         21330 non-null object
debt                21330 non-null int64
total_income        21330 non-null int64
purpose             21330 non-null object
dtypes: int64(6), object(5)
memory usage: 1.8+ MB


### Вывод

В столбце с уровнем образования были обнаружены дублирующие друг друга строки, отличающиеся лишь по регистру. Это могло произойти по причине небрежности при ручном вводе данных, либо при сборе данных из разных источников. После приведения регистра к единому виду удалили дубликаты методом drop_duplicates() и произвели переиндексацию.

### Лемматизация

При первичном анализе было было замечено, что одни и те же цели кредита зачастую формулируются разными словами, т.е. имеет место, скажем так, семантическое дублирование. В этом можно легко убедиться на примере:

In [28]:
[item for item in client_data.purpose.unique() if 'авто' in item]

['приобретение автомобиля',
 'на покупку подержанного автомобиля',
 'на покупку своего автомобиля',
 'автомобили',
 'сделка с подержанным автомобилем',
 'автомобиль',
 'свой автомобиль',
 'сделка с автомобилем',
 'на покупку автомобиля']

Проведем лемматизацию по данным столбца, чтобы убрать такое дублирование. Для этого используем метод apply(), в данной случае логика предельно проста, поэтому пользуюсь безымянной функцией

In [29]:
client_data['lemmed'] = client_data.purpose.apply(lambda item: m.lemmatize(item))
client_data.head()

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmed
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]"
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]"
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]"
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]"
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]"


### Вывод

Лемматизация позволила вместо произвольных смысловых конструкций получить более подходящие для машинной обработки последовательности нормализованных форм слов, из которых в дальнейшем можно будет выделить интересующие нас для разбиения на категории.

### Категоризация данных

Для категоризации применим функцию, которая вовращает "смысловую" принадлежность лемматизированной последовательности к определенной категории (так, жилье и недвижимость являются синонимами, я предпочел отбросить подкатегории, такие как покупка квартиры для сдачи в аренду либо "для себя", за их малозначимостью)

In [30]:
def GetCategoryFromList(lst):
    
    """
    Принимает на вход результат работы стеммера
    в виде списка.
    Возвращает категорию в виде строки.
    
    Parameters:
    ----------
    lst: list of normalized words
    
    Returns:
    ----------
    result: str
    """
    
    
    if 'жилье' in lst or 'недвижимость' in lst:
        return 'недвижимость'
    
    elif 'автомобиль' in lst:
        return 'автомобиль'
    
    elif 'образование' in lst:
        return 'образование'
    
    elif 'свадьба' in lst:
        return 'свадьба'
 

In [32]:
client_data['category'] = client_data.lemmed.apply(GetCategoryFromList)
client_data.category.value_counts() # проверка

недвижимость    10750
автомобиль       4279
образование      3988
свадьба          2313
Name: category, dtype: int64

Теперь категоризируем данные в столбце доходов. В данных о доходах населения часто встречается деление на децимали - группы по 10%. Я решил применить этот принцип и поделил отсортированный столбец на десять равных частей.

In [33]:
sorted_by_income = client_data.total_income.sort_values(ascending=False).reset_index(drop=True)
sorted_by_income = pd.Series(data=sorted_by_income.index.to_numpy(), index=sorted_by_income.values)

total_elements = len(sorted_by_income)

def GetSolvencyGroup(num):
    
    # пред. версия: CPU times: user 7.28 s, sys: 0 ns, total: 7.28 s
    # текущая: CPU times: user 1.11 s, sys: 0 ns, total: 1.11 s
    # мы заботимся о производительности! :D
    
    index_in_sorted = sorted_by_income.at[num]
    
    if isinstance(index_in_sorted, np.int64):
        return int(index_in_sorted / total_elements * 10)
    else:
        return int(index_in_sorted[0] / total_elements * 10)

In [34]:
client_data['solvency'] = client_data.total_income.apply(GetSolvencyGroup)
debt_by_income = client_data.groupby('solvency') \
.apply(lambda group: group.debt.sum() / group.debt.count() * 100).round(decimals=2)
debt_by_income.index = ['Самые богатые', '20%', '30%', '40%', '50%', '60%', '70%', '80%', '90%', 'Самые бедные']
debt_by_income.name = 'Просрочки в зависимости от дохода, %'
debt_by_income

Самые богатые    7.08
20%              6.94
30%              8.39
40%              8.39
50%              8.63
60%              9.04
70%              8.48
80%              8.30
90%              8.77
Самые бедные     7.36
Name: Просрочки в зависимости от дохода, %, dtype: float64

### Вывод

Лемматизация и последующая категоризация позволили разбить все кредиты на четыре основных категории: займы на приобретение недвижимости, автомобиля, а также на образование и свадьбу. Теперь их будет легче сгруппировать и проанализировать.
Столбец с доходами был разделен на 10 частей, чтобы получить статистику просрочек у групп населения с разным доходом.

### Шаг 3. Ответы на вопросы, поставленные в исследовании

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [35]:
no_children = client_data[client_data.children == 0].debt
one_or_two = client_data[(client_data.children == 1) | (client_data.children == 2)].debt
three_to_five = client_data[(client_data.children >= 3) & (client_data.children <= 5)].debt

print('Вероятность просрочки для бездетных клиентов составляет {:.2%}'.format(
no_children.sum() / no_children.count()))

for series, children in zip([one_or_two, three_to_five], ['1-2', '3-5']):
    print('Вероятность просрочки для семьи с {} детьми составляет {:.2%}'.format
         (children, series.sum() / series.count()))

Вероятность просрочки для бездетных клиентов составляет 7.54%
Вероятность просрочки для семьи с 1-2 детьми составляет 9.30%
Вероятность просрочки для семьи с 3-5 детьми составляет 8.16%


### Вывод

Самые надежные заемщики - бездетные. Наблюдаем уменьшение доли просрочки для семей, имеющих от 3 до 5 детей, однако стоит учитывать, что таких семей гораздо меньше, чем тех, кто имеет одного-двух детей или не имеет их вовсе. Поэтому в целом можно заключить следующее: наличие детей отрицательно сказывается на платежеспособности, однако судить о влиянии конкретного количества детей на вероятность своевременного возврата представляется маловозможным - выборка из многодетных недостаточно большая

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [36]:
debt_by_family_status = client_data.groupby('family_status') \
.apply(lambda group: group.debt.sum() / group.debt.count() * 100).sort_values().round(decimals=2)
debt_by_family_status.name = 'Просрочки в зависимости от семейного положения, %'
debt_by_family_status

family_status
вдовец / вдова           6.62
в разводе                7.06
женат / замужем          7.56
гражданский брак         9.31
Не женат / не замужем    9.76
Name: Просрочки в зависимости от семейного положения, %, dtype: float64

### Вывод

Овдовевшие заемщики оказались наиболее дисциплинированными, в то время как никогда не женатые и состоящие в гражданском браке в среднем допускают больше всего просрочек. Можно с уверенностью сказать, что действительно есть зависимость между семейным положением и своевременным возвратом кредита - заемщики, состоящие или ранее состоявшие в официальном браке, в среднем более надежны.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?


In [37]:
debt_by_income

Самые богатые    7.08
20%              6.94
30%              8.39
40%              8.39
50%              8.63
60%              9.04
70%              8.48
80%              8.30
90%              8.77
Самые бедные     7.36
Name: Просрочки в зависимости от дохода, %, dtype: float64

### Вывод

Данные получаются немного странные. Просроченная задолженность увеличивается от беднейшего населения к среднему классу, а затем начинает падать. Самые богатые допускают просрочки реже всех остальных, но не намного. Это может быть связано с тем, что люди с низкими доходами опасаются брать кредиты, либо просто не могут их получить.
Тем не менее, данные странные, я бы ожидал увидеть резкий всплеск у бедных, поскольку такие люди часто берут кредиты, чтобы просто выжить.

In [38]:
import matplotlib.pyplot as plt
%matplotlib notebook

In [39]:
plt.plot(debt_by_income, color='darkblue', linewidth=3)
plt.ylabel('Просроченные задолженности, %')
plt.xlabel('Богаче, чем часть населения, %')
plt.ylim(6,10)
plt.xticks([1, 3, 5, 7, 9], labels=['20', '40', '60', '80', '100'])
plt.grid(b=True, which='major', axis='both')
plt.title('Зависимость частоты просроченных задолженностей \n от уровня дохода заемщика')

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Зависимость частоты просроченных задолженностей \n от уровня дохода заемщика')

- Как разные цели кредита влияют на его возврат в срок?

In [41]:
defaults_pivot_table = client_data.pivot_table(index='category', values='debt',
                       aggfunc = lambda group: (group.sum() / group.count() * 100).round(decimals=2))

In [43]:
defaults_pivot_table 

Unnamed: 0_level_0,debt
category,Unnamed: 1_level_1
автомобиль,9.35
недвижимость,7.26
образование,9.25
свадьба,7.91


In [50]:
# Пример
res = client_data.pivot_table(index='category', columns='debt', values='children', aggfunc='count')
res['ratio'] = res[1] / (res[0] + res[1])
res

debt,0,1,ratio
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3879,400,0.09348
недвижимость,9970,780,0.072558
образование,3619,369,0.092528
свадьба,2130,183,0.079118


### Вывод

Просрочки чаще образуются по автокредитам и займам на образование. Трудно сказать, почему именно так происходит, в случае с автокредитами можно предположить, что для многих автомобиль является объектом роскоши, и они берут неподъемный кредит чтобы показать свое богатство, успех и т.п. Более сложная ситуация с кредитами на образование, мы не знаем, какой именно банк предоставил данные, известно, что в тех же США достаточно сложная ситуация со студенческими займами, образование достаточно дорогое, позволить себе заплатить такую сумму сразу могут немногие, отсюда множество банкротств по таким кредитам. Если данные оттуда, то такая версия определенно имеет право на жизнь.

### Шаг 4. Общий вывод

    
С большей вероятностью вернут кредит в срок ранее женатые заемщики, и те, кто в браке сейчас, с очень высоким уровнем дохода. В то же время средний класс (имебщий близкий к медианному доход) чаще других допускает дефолт по кредитным обязательствам. Наличие детей в целом отрицательно сказывается на статистике просрочек, но сделать вывод о наличии либо отсутствии влияния именно количества детей на такую статистику представляется маловозможным, поскольку ввиду общей малочисленности многодетных заемщиков в выборке релевантность такого вывода может и должна быть поставлена под сомнение. Среди различных видов кредитования наиболее надежным является ипотечное, а наименее надежны займы на образование и автокредиты.