## Исследование надёжности заёмщиков: анализ банковских данных

### Источник данных
Кредитный отдел банка. Входные данные от кредитного отдела банка — статистика о платёжеспособности клиентов.

### Основные цели проекта
На основе данных клиентов исследовать влияет ли семейное положение, количество детей клиента на факт возврата кредита в срок.

## 1. Изучение общей информации 

In [1]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


In [2]:
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [3]:
#Определяю количество пропущенных значений в столбцах таблицы.
print(data.isnull().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


In [4]:
#Вывожу списки уникальных значений для каждого столбца, чтобы найти пропуски и аномальные значения.
for column in list(data):
    print('Столбец', column, ':', data[column].unique())

Столбец children : [ 1  0  3  2 -1  4 20  5]
Столбец days_employed : [-8437.67302776 -4024.80375385 -5623.42261023 ... -2113.3468877
 -3112.4817052  -1984.50758853]
Столбец dob_years : [42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]
Столбец education : ['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']
Столбец education_id : [0 1 2 3 4]
Столбец family_status : ['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']
Столбец family_status_id : [0 1 2 3 4]
Столбец gender : ['F' 'M' 'XNA']
Столбец income_type : ['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']
Столбец debt : [0 1]
Столбец total_income : [2538

### Вывод

При превом изучении видно, что:
- столбец children содержит значения-выбросы: -1, 20,
- столбец dob_years содержит значение-выброс: 0,
- столбец education необходимо привести к одному регистру,
- столбец gender содержит неожидаемое значение 'XNA',
- столбец purpose содержит значения, которые обозначают одно, но записаны разными словами,
- столбец days_employed содержит отрицательные и очень большие значения, в нем есть пропуски, считаю, что этот столбец "мусорный", т.к. не вижу связи между его содержимым и другими столбцами, не буду использовать для решения,
- столбец total_income необходимо привести к целочисленному типу, в нем есть пропуски,

## 2. Предобработка данных

### Обработка пропусков

#### Обработаю пропуски в столбце total_income.


In [5]:
#Проверю связь пропусков в двух столбцах days_employed и total_income. 
#И данные в остальных строках, где пропущены занчения ЗП.

data_null = data[data['total_income'].isnull()]
print(data_null.head(10))
print(data_null.isnull().sum())
print(data_null.info())

    children  days_employed  dob_years education  education_id  \
12         0            NaN         65   среднее             1   
26         0            NaN         41   среднее             1   
29         0            NaN         63   среднее             1   
41         0            NaN         50   среднее             1   
55         0            NaN         54   среднее             1   
65         0            NaN         21   среднее             1   
67         0            NaN         52    высшее             0   
72         1            NaN         32    высшее             0   
82         2            NaN         50    высшее             0   
83         0            NaN         52   среднее             1   

            family_status  family_status_id gender  income_type  debt  \
12       гражданский брак                 1      M    пенсионер     0   
26        женат / замужем                 0      M  госслужащий     0   
29  Не женат / не замужем                 4      F    

Данные пропущены в обоих столбцах в одних строках. Значит стаж в днях и ЗП для этих людей не указан. 
Но при этом я не вижу связи с другими столбцами у пропусков. Делаю предположения по пропускам:
- люди могут быть клиентами банка, поэтому в анкете отсутствуют вопросы про стаж и ЗП, т.к. они уже известны банку, а таблица собрана только из анкет,
- поля могут быть взаимосвязаны при заполнении: если не заполнено одно, то второе не предлагается/блокируется, например,
- данные пропущены при вводе в систему/ошибке в системе (также поля могут быть связаны).

Принимаю решение сгруппировать пропущенные строки по типу занятости, найти для каждой группы медианное значение, заполнить им пропуск.

In [37]:
#Попробую привести данные к целочисленному типу до обработки пропусков. 
#На случай, если в столбце есть нечисловые данные.
try:
    data['total_income'] = data['total_income'].astype(int)
except: 
    print('Сперва заполните пропуски.')

In [7]:
#Для замены пропусков в ЗП делаю группировку по типу занятости. 
#Исключаю пропуски из расчетов и вычисляю медиану каждой группы.
print(data.drop(data[data['total_income'].isnull()].index).groupby('income_type')['total_income'].median())

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64


In [8]:
#Делаю замену пропусков на медианные значения по группам занятости.
data.loc[(data['income_type'] == 'госслужащий') & (data['total_income'].isnull()), 'total_income'] = 150420.150276
data.loc[(data['income_type'] == 'компаньон') & (data['total_income'].isnull()), 'total_income'] = 172515.659469
data.loc[(data['income_type'] == 'сотрудник') & (data['total_income'].isnull()), 'total_income'] = 142587.588976
data.loc[(data['income_type'] == 'пенсионер') & (data['total_income'].isnull()), 'total_income'] = 118480.837408
data.loc[(data['income_type'] == 'безработный') & (data['total_income'].isnull()), 'total_income'] = 131339.751676
data.loc[(data['income_type'] == 'в декрете') & (data['total_income'].isnull()), 'total_income'] = 53829.130729
data.loc[(data['income_type'] == 'предприниматель') & (data['total_income'].isnull()), 'total_income'] = 499163.144947
data.loc[(data['income_type'] == 'студент') & (data['total_income'].isnull()), 'total_income'] = 98201.625314

In [9]:
#Проверяю, что пропусков в столбце total_income больше нет.
print(data.isnull().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64


### Обработаю занчения в столбцах dob_years, children, gender, которые при первом исследовании определила аномальными (выбросами).

##### Обработка столбца 'children'.

In [10]:
print(data['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


Аномалии в количестве детей: -1, 20. Таких строк мало относительно общего объема данных. Этот критерий значимый для исследования, поэтому я не делаю предположений для объединения с какой-то из категорий. Принимаю решение удалить их.

Почему могли появиться такие данные?
%20 - кодировка пробела. Возможно, что в этом месте произошла ошибка при вводе данных.
-1 похоже на опечатку.

In [11]:
data.drop(data[(data['children'] == -1)|(data['children'] == 20)].index, inplace = True)
print(data['children'].value_counts())

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64


#### Обработка столбца 'gender'.

Функция .unique помогла найти аномальное значение в столбце gender : ['XNA']. 
Возможная причина появления такого значение в этом столбце: потерялось при вводе в систему/заполняющий не отметил/случилась опечатка.

In [12]:
print(data['gender'].value_counts())
#Такое значение только 1. Поэтому удаляю строку.
data.drop(data[data['gender'] == 'XNA'].index, inplace=True)
print(data['gender'].value_counts())

F      14154
M       7247
XNA        1
Name: gender, dtype: int64
F    14154
M     7247
Name: gender, dtype: int64


#### Обработка столбца 'dob_years'.

In [13]:
print(data['dob_years'].value_counts())

35    614
40    603
41    603
34    597
38    595
42    592
33    577
39    572
31    556
36    553
29    543
44    543
30    536
48    536
37    531
43    510
50    509
32    506
49    505
28    501
45    494
27    490
52    483
56    482
47    480
54    476
46    469
58    461
57    457
53    457
51    446
55    441
59    441
26    406
60    376
25    356
61    353
62    351
63    268
64    263
24    262
23    252
65    194
66    183
22    183
67    167
21    110
0     100
68     99
69     83
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64


Аномалии в возрасте: 0.
Делаю группировку по типу занятости, т.к. он связан с возрастом (например, пенсионер и студент). Вычислю медиану по каждой группе и заполню 0-ые значения по группам.

Почему мог появиться 0? Делаю предположение, что пропустили при вводе данных.

In [14]:
#Исключаю 0 из расчетов и вычисляю медиану каждой группы.
print(data.drop(data[data['dob_years'] == 0].index).groupby('income_type')['dob_years'].median())

#Исследую распределение 0-ых значений по типам занятости.
print(data[data['dob_years'] ==0].groupby('income_type')['dob_years'].count())

income_type
безработный        38.0
в декрете          39.0
госслужащий        40.0
компаньон          39.0
пенсионер          60.0
предприниматель    42.5
сотрудник          39.0
студент            22.0
Name: dob_years, dtype: float64
income_type
госслужащий     6
компаньон      20
пенсионер      20
сотрудник      54
Name: dob_years, dtype: int64


In [15]:
#Делаю замену 0 на медианные значения по группам занятости.

data.loc[(data['income_type'] == 'госслужащий') & (data['dob_years'] == 0), 'dob_years'] = 40
data.loc[(data['income_type'] == 'компаньон') & (data['dob_years'] == 0), 'dob_years'] = 39
data.loc[(data['income_type'] == 'сотрудник') & (data['dob_years'] == 0), 'dob_years'] = 39
data.loc[(data['income_type'] == 'пенсионер') & (data['dob_years'] == 0), 'dob_years'] = 60

#Проверяю, что 0 нет.
print(data.loc[data.loc[:, 'dob_years'] ==0].groupby('income_type')['dob_years'].count())

Series([], Name: dob_years, dtype: int64)


### Вывод

Пропуски и аномальные значения обработаны. Выводы по каждому типу выше.

### Замена типа данных

In [16]:
data['total_income'] = data['total_income'].astype(int)

### Вывод

Заменила тип данных в столбце total_income методом .astype(int), т.к. его удобно применить к столбцу таблицы.

Замена этим методом "отрезала хвост у данных". Не считаю, что нужно было применить метод сложнее с использованием округления, т.к. для диапазонов зарплат (десятки тысяч) это не играет роли.

### Обработка дубликатов

Дубликаты обнаружены в столбце 'education'. Рассмотрим данные.

In [17]:
print(data['education'].value_counts())
print(data['education_id'].value_counts())

среднее                13667
высшее                  4698
СРЕДНЕЕ                  766
Среднее                  703
неоконченное высшее      664
ВЫСШЕЕ                   271
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64
1    15136
0     5237
2      740
3      282
4        6
Name: education_id, dtype: int64


Избавлюсь от дубликатов приведением к нижнему регистру всех значений.

In [18]:
data['education'] = data['education'].str.lower()
print(data['education'].value_counts())

среднее                15136
высшее                  5237
неоконченное высшее      740
начальное                282
ученая степень             6
Name: education, dtype: int64


In [19]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21401 entries, 0 to 21524
Data columns (total 12 columns):
children            21401 non-null int64
days_employed       19239 non-null float64
dob_years           21401 non-null int64
education           21401 non-null object
education_id        21401 non-null int64
family_status       21401 non-null object
family_status_id    21401 non-null int64
gender              21401 non-null object
income_type         21401 non-null object
debt                21401 non-null int64
total_income        21401 non-null int64
purpose             21401 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.7+ MB
None


Выполню проверку на дубли во всей таблице.

In [20]:
data = data.drop_duplicates().reset_index(drop = True)

In [21]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21330 entries, 0 to 21329
Data columns (total 12 columns):
children            21330 non-null int64
days_employed       19239 non-null float64
dob_years           21330 non-null int64
education           21330 non-null object
education_id        21330 non-null int64
family_status       21330 non-null object
family_status_id    21330 non-null int64
gender              21330 non-null object
income_type         21330 non-null object
debt                21330 non-null int64
total_income        21330 non-null int64
purpose             21330 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB
None


### Вывод

Дубликаты в образовании могли появиться из-за различного ввода данных разными клиентами (выбор регистра).

Для поиска дублей-строк во всей таблице использовала метод drop_duplicates().reset_index(drop = True), т.к. позволяет решить задачу поиска полных совпадений. При вызове метода drop_duplicates() вместе с повторяющимися строками удаляются их индексы, поэтому используется с методом reset_index(). Аргумент drop со значением True, чтобы не создавать столбец со старыми значениями индексов.
Судя по выводу data.info(), таких строк не нашлось.

### Лемматизация

In [22]:
#Изучаю уникальные значения столбца 'purpose'.
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

print(data['purpose'].value_counts())

свадьба                                   790
на проведение свадьбы                     763
сыграть свадьбу                           760
операции с недвижимостью                  672
покупка коммерческой недвижимости         658
покупка жилья для сдачи                   649
операции с жильем                         647
операции с коммерческой недвижимостью     645
жилье                                     641
покупка жилья                             640
покупка жилья для семьи                   637
недвижимость                              631
строительство собственной недвижимости    628
операции со своей недвижимостью           623
строительство жилой недвижимости          620
покупка своего жилья                      619
строительство недвижимости                619
покупка недвижимости                      615
ремонт жилью                              604
покупка жилой недвижимости                602
на покупку своего автомобиля              504
заняться высшим образованием      

In [23]:
#Посмотрю категоризацию возможности задолженности до лемматизации.
print(data.groupby('purpose')['debt'].sum()/data.groupby('purpose')['debt'].count())

purpose
автомобили                                0.092437
автомобиль                                0.083503
высшее образование                        0.089686
дополнительное образование                0.083516
жилье                                     0.071763
заняться высшим образованием              0.086694
заняться образованием                     0.095588
на покупку автомобиля                     0.093817
на покупку подержанного автомобиля        0.074310
на покупку своего автомобиля              0.091270
на проведение свадьбы                     0.079948
недвижимость                              0.066561
образование                               0.072398
операции с жильем                         0.074189
операции с коммерческой недвижимостью     0.080620
операции с недвижимостью                  0.081845
операции со своей недвижимостью           0.080257
покупка жилой недвижимости                0.068106
покупка жилья                             0.075000
покупка жилья для сдачи

In [24]:
#Соединяю уникальные значения в строку и считаю количество лемм
#для поиска частотных.
all_lemmas = m.lemmatize(' '.join(data['purpose'].unique()))
print(Counter(all_lemmas))

Counter({' ': 96, 'покупка': 10, 'недвижимость': 10, 'автомобиль': 9, 'образование': 9, 'жилье': 7, 'с': 5, 'операция': 4, 'на': 4, 'свой': 4, 'свадьба': 3, 'строительство': 3, 'получение': 3, 'высокий': 3, 'дополнительный': 2, 'для': 2, 'коммерческий': 2, 'жилой': 2, 'подержать': 2, 'заниматься': 2, 'сделка': 2, 'приобретение': 1, 'сыграть': 1, 'проведение': 1, 'семья': 1, 'собственный': 1, 'со': 1, 'профильный': 1, 'сдача': 1, 'ремонт': 1, '\n': 1})


Считаю, что в этом списке есть 4 больших цели:
- недвижимость
- свадьба
- обарзование
- автомобиль

Выделяю эти 4 категории, далее разделю все варианты на них.

In [25]:
for row in data['purpose'].unique():
    lemmas = m.lemmatize(row)
    for word in lemmas:
        if word == 'свадьба':
            data.loc[(data['purpose'] == row), 'purpose'] = 'свадьба'
        if word == 'образование':
            data.loc[(data['purpose'] == row), 'purpose'] = 'образование'
        if ((word == 'недвижимость') | (word == 'жилье')):
            data.loc[(data['purpose'] == row), 'purpose'] = 'недвижимость'
        if word == 'автомобиль':
            data.loc[(data['purpose'] == row), 'purpose'] = 'автомобиль'
            
print(data['purpose'].unique())  
all_lemmas = m.lemmatize(' '.join(data['purpose'].unique()))

['недвижимость' 'автомобиль' 'образование' 'свадьба']


### Вывод

Выделила 4 категории среди целей кредита, преобразовала столбец 'purpose'.

### Категоризация данных

Категоризирую данные для поиска зависимости между наличием детей и возвратом кредита в срок.

In [26]:
#Группирую данные по столбцу 'children'.
#Нахожу отношение количества наличия задолженностей 
#к общему числу в каждой группе
print(data.groupby('children')['debt'].sum()/data.groupby('children')['debt'].count())

children
0    0.075444
1    0.092346
2    0.094542
3    0.081818
4    0.097561
5    0.000000
Name: debt, dtype: float64


Категоризирую данные для поиска зависимости между семейным положением и возвратом кредита в срок.

In [27]:
#Группирую данные по столбцу 'family_status'.
#Нахожу отношение количества наличия задолженностей 
#к общему числу в каждой группе
print(data.groupby('family_status')['debt'].sum()/data.groupby('family_status')['debt'].count())

family_status
Не женат / не замужем    0.097639
в разводе                0.070648
вдовец / вдова           0.066246
гражданский брак         0.093153
женат / замужем          0.075606
Name: debt, dtype: float64


Категоризирую данные для поиска зависимости между целью кредита и возвратом кредита в срок.

In [28]:
#Группирую данные по столбцу 'purpose'.
#Нахожу отношение количества наличия задолженностей 
#к общему числу в каждой группе
print(data.groupby('purpose')['debt'].sum()/data.groupby('purpose')['debt'].count())

purpose
автомобиль      0.093480
недвижимость    0.072558
образование     0.092528
свадьба         0.079118
Name: debt, dtype: float64


Категоризирую данные для поиска зависимости между доходом и возвратом кредита в срок.

In [29]:
#Для решения это задачи группирую значений по типу занятости.
#Нахожу минимальное, максимальное и медианное значения в каждой группе.
#Также смотрю минимальное, максимальное и медианное значения без группировки.
print(data.groupby('income_type')['total_income'].median())
print(data.groupby('income_type')['total_income'].min())
print(data.groupby('income_type')['total_income'].max())
print(data['total_income'].min())
print(data['total_income'].max())
print(data['total_income'].median())

income_type
безработный        131339
в декрете           53829
госслужащий        150420
компаньон          172515
пенсионер          118480
предприниматель    499163
сотрудник          142587
студент             98201
Name: total_income, dtype: int64
income_type
безработный         59956
в декрете           53829
госслужащий         29200
компаньон           28702
пенсионер           20667
предприниматель    499163
сотрудник           21367
студент             98201
Name: total_income, dtype: int64
income_type
безработный         202722
в декрете            53829
госслужащий         910451
компаньон          2265604
пенсионер           735103
предприниматель     499163
сотрудник          1726276
студент              98201
Name: total_income, dtype: int64
20667
2265604
142587.0


Выделаю 4 категории обеспеченности клиентов.
- до 60 000

Минимальная ЗП: 20 000 - 30 000 (справедлива для 3 категорий клиентов), декретный достаток - 53829. Объединяю этих клиентов в класс "бедные".

- до 120 000

Медианные значения двух категорий клиентов попадают в этот раздел. Объединяю этих клиентов в класс "малообеспеченные".

- до 180 000

Медианные значения четырех категорий клиентов попадают в этот раздел.
Объединяю этих клиентов в класс "средеобеспеченные".

- до 500 000

Достаток предпринимателей попадает в эту категорию, максимальный достаток 2 категорий клиентов. Объединяю этих клиентов в класс "состоятельные".

- Все остальные

Попадают максимальные значения трех категорий клиентов. Объединяю этих клиентов в класс "богатые".

In [30]:
#Пишу функцию для категоризации клиентов.
#Cоздаю новый столбец с этими данными.
def income_level(money):
    if money <= 60000:
        return 'бедный'
    if money <= 120000:
        return 'малообеспеченный'
    if money <= 180000:
        return 'средеобеспеченный'
    if money <= 500000:
        return 'состоятельный'
    return 'богатый'

data['income_level'] = data['total_income'].apply(income_level)

In [31]:
print(data.groupby('income_level')['debt'].sum()/data.groupby('income_level')['debt'].count())

income_level
бедный               0.061174
богатый              0.063063
малообеспеченный     0.083815
состоятельный        0.074927
средеобеспеченный    0.086625
Name: debt, dtype: float64


### Вывод

Категоризировала данные.

## 3. Анализ проведенного исследования

### 1. Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [32]:
#Повторю строку из предыдущего раздела для удобства ответа.
print(data.groupby('children')['debt'].sum()/data.groupby('children')['debt'].count())

children
0    0.075444
1    0.092346
2    0.094542
3    0.081818
4    0.097561
5    0.000000
Name: debt, dtype: float64


### Вывод
Считаю, что есть связь между количестволм детей и возможностью задолженности. Чем больше детей, тем больше риск задолженности.
#####  0 детей - 7,7%
#####  1 ребенок - 9,3%
#####  2 детей - 9,5%
#####  3 детей - 8,2%
#####  4 детей - 10%

Выбиваются клиенты с 3 детьми. Считаю, что это не противоречит полностью выводу выше. Вообще: чем больше детей, тем меньше таких клиентов в выборке. 
Клиентов с количеством детей 5 во всей выборке 9. Считаю, что статистики по ним недостаточно для интерпретации итогового результата. Не учитываю их результат.

### 2. Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [33]:
#Повторю строку из предыдущего раздела для удобства ответа.
print(data.groupby('family_status')['debt'].sum()/data.groupby('family_status')['debt'].count())

family_status
Не женат / не замужем    0.097639
в разводе                0.070648
вдовец / вдова           0.066246
гражданский брак         0.093153
женат / замужем          0.075606
Name: debt, dtype: float64


### Вывод
Считаю, что есть связь между семейным положением и возможностью задолженности, но слабая.

##### Не женат / не замужем - 9,9%
Самый высокий уровень риска задолженности. Можно сказать, что это люди, которые не берут на себя "обязательства", связанные с семьей. По данным они наименее надежны в плане возврата кредита

##### Гражданский брак - 9,4%
Официальные "обязательства" эта категория клиентов также не берет, но уже заявляет о другом статусе. Их % похож на предыдущих, но уже ниже.

##### Женат/Замужем - 7,7%
Эти клиенты берут "обязательства", их уровень риска заметно ниже.

##### В разводе - 7%
Эти клиенты имеют опыт "обязательств", их уровень риска ниже, чем у первых двух категорий.

##### Вдовец/вдова - 6,7%
Эти клиенты имеют опыт "обязательств", их уровень риска ниже, чем у первых двух категорий.

Можно предположить, что те клиенты, которые заявляют в своем статусе о наличии в настоящем или прошлом официальных отношений, имеют меньший риск задолженности.

### 3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [34]:
#Повторю строку из предыдущего раздела для удобства ответа.
print(data.groupby('income_level')['debt'].sum()/data.groupby('income_level')['debt'].count())

income_level
бедный               0.061174
богатый              0.063063
малообеспеченный     0.083815
состоятельный        0.074927
средеобеспеченный    0.086625
Name: debt, dtype: float64


### Вывод

Считаю, что лучший результат по вероятности долга у категории "бедные" потому, что таким клиентам реже дают кредиты. Поэтому их история не содержит достаточной информации.

Из оставшихся категорий лучше всех возвращают долги клиенты из категории "богатые". Их процент задолженности 6,3%. Высокий достаток гарантирует меньший риск нехватки средств.

Следующее место у категории "состоятельных". Что подтверждает тенденцию: чем выше заработок, тем меньше риск задолженности.

Далее на похожих позициях "малообеспеченные" 8,4% и "средеобеспеченные" 8,7%.

Можно сделать вывод о том, что чем богаче клиент, тем ниже риск задолженности, если это не касается клиентов с минимальным доходом.

### 4. Как разные цели кредита влияют на его возврат в срок?

In [35]:
#Повторю строку из предыдущего раздела для удобства ответа.
print(data.groupby('purpose')['debt'].sum()/data.groupby('purpose')['debt'].count())

purpose
автомобиль      0.093480
недвижимость    0.072558
образование     0.092528
свадьба         0.079118
Name: debt, dtype: float64


### Вывод

Самый большой риск у категорий автомобиль и образование. Связываю это с тем, что:
- Люди, берущие кредиты на образование, только получают профессию, либо меняют, что негативно сказывается на их заработной плате. А значит риск задолженности есть.

- Люди, берущие кредит на автомобиль, также тратят деньги на амортизацию/бензин/страховки/чп. Есть очень много дополнительных расходов, которые могут негативно сказаться на вероятности задолженности.

Далее идет категория "свадьба". Процент риска ниже, чем у первых двух категорий. Предполагаю, что такие кредиты меньше в среднем, чем у трех других категорий.

Наименее рискованная категория "недвижимость". Считаю, что такие покупки наиболее обдуманные, длительные, а значит клиент лучше оценил свои силы перед такой покупкой, имеет стабильный доход. 
Возможно, что данную категорию можно подробить сильнее, но я считаю, что общие выводы будут аналогичными. На предварительной категоризации до лемматизации видно, что, например, цель "на ремонт" имеет еще более низкий риск задолженности.

## Общий вывод

После проведенного исследования считаю, что наличие или отсутствие детей влияет сильнее на факт погашения кредита в срок, чем количество. Если у клиента нет детей, то он вероятнее вернет кредит в срок. 
Количество детей имеет также зависимость, отражденную выше. Чем больше детей, тем выше риск задолженности. Из этой зависимости выбиваются люди, имеющие 3 детей. Но тут сказывается фактор: чем больше детей, тем меньше таких клиентов, что ухудшает анализ.

В отношении семейного положения могу сделать вывод, что те клиенты, которые заявляют в своем статусе о наличии в настоящем или прошлом официальных отношений, имеют меньший риск задолженности, чем те, кто такой статус не имеют/не имели. Люди, готовые брать на себя обязательстваа, лучше отдают кредиты.