# Описание проекта 
Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка.\
Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.\
Иходные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

# Описание данных
- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Изучение-общей-информации" data-toc-modified-id="Изучение-общей-информации-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Изучение общей информации</a></span><ul class="toc-item"><li><span><a href="#Посмотрим-первые-10-сток-таблицы-и-попробуем-увидеть-некорректные-данные,-которые-сразу-бросаются-в-глаза." data-toc-modified-id="Посмотрим-первые-10-сток-таблицы-и-попробуем-увидеть-некорректные-данные,-которые-сразу-бросаются-в-глаза.-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Посмотрим первые 10 сток таблицы и попробуем увидеть некорректные данные, которые сразу бросаются в глаза.</a></span></li><li><span><a href="#Выведем-общую-информацию-о-данных-таблицы." data-toc-modified-id="Выведем-общую-информацию-о-данных-таблицы.-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Выведем общую информацию о данных таблицы.</a></span></li><li><span><a href="#Попробуем-найти-еще-некорректные-данные-в-разных-числовых-столбцах-и-посчитаем-их-колличество." data-toc-modified-id="Попробуем-найти-еще-некорректные-данные-в-разных-числовых-столбцах-и-посчитаем-их-колличество.-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Попробуем найти еще некорректные данные в разных числовых столбцах и посчитаем их колличество.</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Обработка-пропусков" data-toc-modified-id="Обработка-пропусков-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Обработка пропусков</a></span></li><li><span><a href="#Замена-типа-данных" data-toc-modified-id="Замена-типа-данных-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Замена типа данных</a></span></li><li><span><a href="#Обработка-дубликатов" data-toc-modified-id="Обработка-дубликатов-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Обработка дубликатов</a></span></li><li><span><a href="#Лемматизация" data-toc-modified-id="Лемматизация-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Лемматизация</a></span></li><li><span><a href="#Категоризация-данных" data-toc-modified-id="Категоризация-данных-2.5"><span class="toc-item-num">2.5&nbsp;&nbsp;</span>Категоризация данных</a></span></li><li><span><a href="#Ответы-на-вопросы" data-toc-modified-id="Ответы-на-вопросы-2.6"><span class="toc-item-num">2.6&nbsp;&nbsp;</span>Ответы на вопросы</a></span></li></ul></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

## Изучение общей информации 

### Посмотрим первые 10 сток таблицы и попробуем увидеть некорректные данные, которые сразу бросаются в глаза.

In [1]:
import pandas as pd #Импорт библиотеки пандас
from pymystem3 import Mystem #Получение лемматизатора для слов на русском
from collections import Counter

In [2]:
df = pd.read_csv('datasets/data.csv') #Прочитаем файл data.csv и сохраним его в переменной df

In [3]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Сразу** видим, что `days_employed` имеет отрицательные значения и скорее всего это ошибка. К стобцу `education` мы используем `string.lower()` и приведем строки к нижнему регистру.

### Выведем общую информацию о данных таблицы.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**По общей** информации можно заметить, что стобцы `days_employed` и `total_income` имеют пропущенные значения. Нужно будет определить в одиннаковых они местах и к какому `income_type` они относятся.

### Попробуем найти еще некорректные данные в разных числовых столбцах и посчитаем их колличество.

In [5]:
df['children'].value_counts() #количество детей в семье

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

**Стобец** с детьми выглядит нормальным не считая двух значений - `20` и `1`. Скорее всего это ошибка ввода и нужно заменить -1 на 1 и 20 на 2 (бесспорно, семьи у которых 20  детей существуют, но не в количестве 76 штук в одном банке).

In [6]:
df['dob_years'].value_counts() #возраст клиента в годах

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

**К счастью** брать кредит в возрасте `0` лет невозможно (возможно к сожалению). На первый взгляд выглядит, как пропущенные значения в графе возраста.

**Посмотрим** на столбец `gender`.

In [7]:
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Кто-то забыл указать пол. Посмотрим кто он и попробуем определить из какой он группы.

### Вывод

Всего мы имеем 12 столбцов с разным типом данных.

`children` — количество детей в семье

`days_employed` — общий трудовой стаж в днях

`dob_years` — возраст клиента в годах

`education` — уровень образования клиента

`education_id` — идентификатор уровня образования

`family_status` — семейное положение

`family_status_id` — идентификатор семейного положения

`gender` — пол клиента

`income_type` — тип занятости

`debt` — имел ли задолженность по возврату кредитов

`total_income` — ежемесячный доход

`purpose` — цель получения кредита

В столбцах `days_employed` и `total_income` количество значение отличается от остальных. 
Значит там есть пропущенные значения `NaN` или `None`.

Столбцы `total_income` и `days_employed` имеют тип данных - `float 64`. 
Такая точность нам не нужна и нужно заменить тип данных на `int 64`.

В `children`, `dob_years` и `gender` мы имеем артефакты, которые надо исправить.


## Предобработка данных

### Обработка пропусков

**Узнаем** в каких столбцах есть пропуски и их количество.

In [8]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Как и предполагалось** столбики `days_employed` и `total_income` имеют пропуски так еще и в одинаковом количестве!

**Попробуем** определить в одинаковых-ли местах пропуски по типу занятости и из каких они профессий.

In [9]:
df[(df['days_employed'].isnull() == True) & (df['total_income'].isnull() == True)]['income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

**Увы**, профессии оказись разными, но за-то мы знаем, что пропуски симметричные!

**Перед заполнением** пропусков  сделаем по модолю `days_employed`.

In [10]:
df['days_employed'] = df['days_employed'].abs()

**Проверим**

In [11]:
print(df['days_employed'].head())

0      8437.673028
1      4024.803754
2      5623.422610
3      4124.747207
4    340266.072047
Name: days_employed, dtype: float64


И тут появилось то, что мы пропустили. `340266` дня стажа. Интересно какая у него пенсия?

**Посмотрим** среднее и медианные значения столбцов в которых есть пропуска.

In [12]:
days_employed_mean = df['days_employed'].mean()
days_employed_median = df['days_employed'].median()
total_income_mean = df['total_income'].mean()
total_income_median = df['total_income'].median()
print('Среднее стажа -', days_employed_mean)
print('Медиана стажа -', days_employed_median)
print('Среднее дохода -', total_income_mean)
print('Медиана дохода -', total_income_median)

Среднее стажа - 66914.72890682236
Медиана стажа - 2194.220566878695
Среднее дохода - 167422.30220817294
Медиана дохода - 145017.93753253992


**Полученные** значения по стажу нам не подходят, а вот медиана по доходу выглядит подходжящей. Используем её!

**Попробуем** расчитать среднее и медиану с помощью возраста. Предположим, что стаж работы начали получать с 18лет.

In [13]:
dob_years_mean = (df['dob_years'].mean() -18) * 365
dob_years_median = (df['dob_years'].median() -18) * 365
print('Средний стаж работы по возрасту -', dob_years_mean)
print('Медианный стаж работы по возрасту -', dob_years_median)

Средний стаж работы по возрасту - 9232.083623693381
Медианный стаж работы по возрасту - 8760.0


**Полученные** значения выглядят более логично чем раньше. Воспользуемся средним значением.

**Заменим** пропуски на новые значения.

In [14]:
df['days_employed'] = df.groupby('income_type')['days_employed'].fillna(dob_years_mean)
df['total_income'] = df.groupby('income_type')['total_income'].fillna(total_income_median)

**Проверяем**

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Обработка пропусков** прошла успешно. Теперь вернемся к странным значениям и приведем в порядок стобец `education`.

In [16]:
df['education'] = df['education'].str.lower()
df['education'].head(10)

0     высшее
1    среднее
2    среднее
3    среднее
4    среднее
5     высшее
6     высшее
7    среднее
8     высшее
9    среднее
Name: education, dtype: object

**Выглядит** удобней.

**Дети** цветы жизни и их не может быть `-1`. Вернем в стобце `children` всё на свои места.

In [17]:
df['children'] = df['children'].replace(-1, 1)
df['children'] = df['children'].replace(20, 2)
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

**Займёмся** не определившимся клиентом. Для начала выведем его данные.

In [18]:
df.loc[df.loc[:,'gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


**Найти** зацепок не удалось. Один клиент не повлияет на данные. Удаялем.

In [19]:
df['gender'] = df['gender'].drop(index = 10701)
df['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

**Остался** нулевой возраст.

In [20]:
mean_dob_years = df['dob_years'].mean()
median_dob_years = df['dob_years'].median()
print('Средний возраст -', mean_dob_years)
print('Медианный возраст -', median_dob_years)

Средний возраст - 43.29337979094077
Медианный возраст - 42.0


**Оба** значения нам подходят. Выбираем `median`.

In [21]:
df['dob_years'] = df['dob_years'].replace(0, 42)
df['dob_years'].value_counts()

42    698
35    617
40    609
41    607
34    603
38    598
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Все пропуски заполнены. Артефакты исправлены.

### Замена типа данных

**Стаж** в днях и месячную зарплату из типа данных `float64` переведем в `int64`.

In [22]:
df['days_employed'] = df['days_employed'].astype('int')
df['total_income'] = df['total_income'].astype('int')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int32
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21524 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int32
purpose             21525 non-null object
dtypes: int32(2), int64(5), object(5)
memory usage: 1.8+ MB


В целом тип данных выглядел не плохо, но два стобца пришлось сделать более удобными для работы.

### Обработка дубликатов

**Посчитаем** дубликаты в нашем датафрейме.

In [23]:
df.duplicated().sum()

72

**При** использовании `duplicated()`, идёт полная проверка на соответствие всех значений столбцов. Следовательно, причина их появления простое задвоение данных.

**Удаляем дубликаты**. При вызове метода `drop_duplicates()` вместе с повторяющимися строками удаляются их индексы, поэтому используем с методом `reset_index()`.

In [24]:
df = df.drop_duplicates().reset_index(drop = True)
df.duplicated().sum()

0

Дубликаты мешают точно посчитать финальные значения, по этому мы их удалили.

### Лемматизация

В стобце `purpose` содержатся данные о цели получения кредита. Они очень похожи, но записаны разными словами. Проведём лемматизацию.

**Выведем** список значений целей.

In [25]:
m = Mystem()
print(Counter(df['purpose']))

Counter({'свадьба': 791, 'на проведение свадьбы': 767, 'сыграть свадьбу': 765, 'операции с недвижимостью': 675, 'покупка коммерческой недвижимости': 661, 'операции с жильем': 652, 'покупка жилья для сдачи': 651, 'операции с коммерческой недвижимостью': 650, 'покупка жилья': 646, 'жилье': 646, 'покупка жилья для семьи': 638, 'строительство собственной недвижимости': 635, 'недвижимость': 633, 'операции со своей недвижимостью': 627, 'строительство жилой недвижимости': 624, 'покупка недвижимости': 621, 'покупка своего жилья': 620, 'строительство недвижимости': 619, 'ремонт жилью': 607, 'покупка жилой недвижимости': 606, 'на покупку своего автомобиля': 505, 'заняться высшим образованием': 496, 'автомобиль': 494, 'сделка с подержанным автомобилем': 486, 'на покупку подержанного автомобиля': 478, 'автомобили': 478, 'свой автомобиль': 478, 'на покупку автомобиля': 471, 'приобретение автомобиля': 461, 'дополнительное образование': 460, 'сделка с автомобилем': 455, 'высшее образование': 452, 'об

**Люди** любят свадьбы! На основе полученного списка создадим словарь.

In [26]:
dict = {
    'недвижимость': ['жилье', 'недвижимость', 'строительство'],
    'автомобиль': ['автомобиль'],
    'образование': ['образование'],
    'свадьба': ['свадьба'],
    'ремонт': ['ремонт']
}

**Напишем** функцию с возвращаемым значением, которая применяется к словарю.

In [27]:
def lemmas_purposes(column):
    purpose = column['purpose']
    for lemma in m.lemmatize(purpose):
        for key, values in dict.items():
            if lemma in values:
                return key
    return 'прочее'

**Добавим** новый лемматизированный столбец и проверим результат.

In [28]:
%time
df['lemmas_purpose'] = df.apply(lemmas_purposes, axis=1)

Wall time: 0 ns


In [29]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas_purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба


In [30]:
print(Counter(df['lemmas_purpose']))

Counter({'недвижимость': 10204, 'автомобиль': 4306, 'образование': 4013, 'свадьба': 2323, 'ремонт': 607})


**В лемматизированном** списке клиенты банка не так уж сильно и любят свадьбы, как казалось в начале.

Все цели кредита были расфасованы на 5 понятных категорий.

### Категоризация данных

Для ответа на основные вопросы нам нужно категоризировать: `наличие детей`, `семейное положение`,`уровень дохода` и `цели кредита`.

`Семейное положение` - даётся изначально.

`Цели кредита` - мы получили за счёт лемматизации.

`Наличие детей`, `уровень дохода` - нам предстоит категоризировать.

**Начнём** с детей. Создадим 3 категории: `есть дети`, `нет детей` и `многодетный`.

In [31]:
def children_status(children):
    if children == 0:
        return 'нет детей'
    if children >= 3:
        return 'многодетный'
    return 'есть дети'

**Добавим** новый столбец в DataFrame.

In [32]:
df['children_status'] = df['children'].apply(children_status)

**Проверяем**

In [33]:
print(children_status(0))
print(children_status(1))
print(children_status(3))

нет детей
есть дети
многодетный


In [34]:
print(df['children_status'].value_counts())

нет детей      14090
есть дети       6983
многодетный      380
Name: children_status, dtype: int64


**Теперь** займёмся уровнем дохода. Здесь пал выбор на 3 категории: `низкий доход`, `средний доход` и `высокий доход`.

Было принято решение сначало выявить деапозон `среднего дохода`, а от него просто сделать остальные.

Данные не были определены странами и городами. Поэтому найти `средний доход` на просторах интернета не было возможным.

Для выявления `среднего дохода` используем квантили.

In [41]:
df['total_income'].quantile(0.25)

107620.0

In [42]:
df['total_income'].quantile(0.75)

195818.0

**Обозначим** границы `среднего дохода` между 1 квартилем и 3 квартилем, а именно: нижняя граница `107000`, верхняя `196000`.

In [43]:
def total_income_status(total_income):
    if total_income < 107000:
        return 'низкий доход'
    if 107000 <= total_income <= 196000:
        return 'средний доход'
    return 'высокий доход'    

**Проверяем** работу функции и добовляем новый столбец.

In [44]:
df['total_income_status'] = df['total_income'].apply(total_income_status)
print(total_income_status(106999))
print(total_income_status(195999))
print(total_income_status(197865))

низкий доход
средний доход
высокий доход


In [45]:
print(df['total_income_status'].value_counts())

средний доход    10793
высокий доход     5353
низкий доход      5307
Name: total_income_status, dtype: int64


Категаризация прошла успешно, теперь у нас есть все данные для того, что бы ответить на главные вопросы данной работы.

### Ответы на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [46]:
df.groupby('children_status').agg({'debt': ['count','sum','mean']})

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
children_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
есть дети,6983,647,0.092654
многодетный,380,31,0.081579
нет детей,14090,1063,0.075444


Заёмщики, без детей, менее склонны к просрочке по выплатам кредита. Хоть их и в 2 раза больше!

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [47]:
df.groupby('family_status').agg({'debt': ['count','sum','mean']})

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2810,274,0.097509
в разводе,1195,85,0.07113
вдовец / вдова,959,63,0.065693
гражданский брак,4150,388,0.093494
женат / замужем,12339,931,0.075452


Более ответственные окозались люди, которые находятся в браке или находились в нём ранее. А вот не состоящим в официальном браке доверия нет.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [48]:
df.groupby('total_income_status').agg({'debt': ['count','sum','mean']})

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
total_income_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
высокий доход,5353,383,0.071549
низкий доход,5307,423,0.079706
средний доход,10793,935,0.08663


Заёмщикам со `средним доходом` деньги нужно давать более осторожно. Они оказались самыми безответственными.

<a id='section4'></a>
- Как разные цели кредита влияют на его возврат в срок?

In [49]:
df.groupby('lemmas_purpose').agg({'debt': ['count','sum','mean']})

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
lemmas_purpose,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
автомобиль,4306,403,0.09359
недвижимость,10204,747,0.073207
образование,4013,370,0.0922
ремонт,607,35,0.057661
свадьба,2323,186,0.080069


Ремонтники всегда платят свои долги. Но тут больше стоит обратить внимание на недвижимость, как цель кредита её берут больше всего и по отношению к кредитам на автомобиль и образование, она внушает доверие.

## Общий вывод

По исследованным данным можно сделать следующий вывод:

Ответственный заещик - не имеет детей, находится/был в официальном браке, уровень дохода низкий или высокий, берет кредит на жилье или ремонт. 

Менее ответственный заещик - имеет детей, не в узаконенном браке/не в браке, уровень дохода средний, берет кредит на образование или автомобиль.