# Исследование надежности заемщиков.

**Цель исследования** - проверить гипотезы:
1. С увеличением количества детей возрастает количество просроченных платежей.
2. Люди в браке чаще возвращают кредит в срок.
3. С увеличением дохода снижается количество просроченных платежей.
4. Цель кредита вляет на его возврат в срок.

**Задачи в ходе исследования:**
1. Изучить общую информацию о данных.
2. Избавиться от пропусков в данных.
3. Обработать аномалии в данных.
4. Заменить вещественный тип данных в столбце total_income на целочисленный.
5. Удалить дубликаты.
6. Создать два новых датафрейма, в которых:
каждому уникальному значению из education соответствует уникальное значение education_id — в первом;
каждому уникальному значению из family_status соответствует уникальное значение family_status_id — во втором.
7. Разделить на категории уровень дохода клиентов и цель получения кредита.
8. Ответить на вопросы:
*Есть ли зависимость между количеством детей и возвратом кредита в срок?
Есть ли зависимость между семейным положением и возвратом кредита в срок?
Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
Как разные цели кредита влияют на его возврат в срок?*
9. Сделать общий вывод.

Данные о клиентах банка хранятся в таблице "data.csv". Перед проверкой гипотез нужно провести обзор данных.

Сначала необходимо проверить данные на ошибки и оценить их влияние на исследование. Затем, на этапе предобработки исправить самые критичные ошибки данных.

**Таким образом, исследование пройдёт в три этапа:**

1. Обзор данных.
2. Предобработка данных.
3. Проверка гипотез.

### Шаг 1. Обзор данных

Для начала работы необходимо добавить библиотеку pandas, которая является основным инструментом.

In [76]:
import pandas as pd 

### Шаг 2.1 Заполнение пропусков

Прочитаем файл с данными и сохраненим в df

In [77]:
try:
    df = pd.read_csv('/datasets/data.csv')
except: 
    data = pd.read_csv('/download/data.csv')

Получим первые 10 строк таблицы df

In [78]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Получим общую информацию о данных в таблице df

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, в таблице 12 столбцов с разным типом данных - object, float64, int64.

Согласно документации к данным:

**children** — количество детей в семье
**days_employed** — общий трудовой стаж в днях
**dob_years** — возраст клиента в годах
**education** — уровень образования клиента
**education_id** — идентификатор уровня образования
**family_status** — семейное положение
**family_status_id** — идентификатор семейного положения
**gender** — пол клиента
**income_type** — тип занятости
**debt** — имел ли задолженность по возврату кредитов
**total_income** — ежемесячный доход
**purpose** — цель получения кредита

В названиях колонок нарушений нет.

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

Подсчитаем пропуски в датасете

In [5]:
print(df.isna().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


Найдём процент отсутствующих значений

In [6]:
print(f'Процент отсутствующих значений в столбце = {2174/21525:,.2%}')

Процент отсутствующих значений в столбце = 10.10%


В двух столбцах одинаковое количество пропусков, 10.10% в каждом.
Пропуски в данных мешают работе с ними, для этого нужно удалить или заполнить пропущенные значения. Так как в нашем случае отстутствует 10.10%, что довольно много, пропуски нужно заполнить. Для этого я используем медианные значения, сгруппированные по уровню образования.

В столбце с пропусками 'days_employed' есть отрицательные значения, обработаем их позже.

Поиск медианных значений в соответствии с уровнем образования

In [7]:
total_income_median = df.groupby('income_type')['total_income'].median()

Заменим пропущенные значения медианными.

In [8]:
for category in total_income_median.index:
    median = total_income_median[category]
    df.loc[df.loc[:, 'income_type']==category, 'total_income'] = df.loc[df.loc[:, 'income_type']==category, 'total_income'].fillna(median)

Проверим, что все пропущенные значения в столбце обработаны.

In [9]:
print('Пропущенных значений в столбце ', df['total_income'].isna().sum())   

Пропущенных значений в столбце  0


Пропуски в данных мешают работе с ними, для этого нужно удалить или заполнить пропущенные значения. Так как в нашем случае отстутствует 10.10%, что довольно много, пропуски нужно заполнить. Для этого я использовала медианные значения, сгруппированные по уровню образования.

Предварительно можно утверждать, что, данных достаточно для проверки гипотез. Но встречаются пропуски в данных, а в названиях колонок — расхождения с хорошим стилем.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

### Шаг 2.2 Проверка данных на аномалии и исправления.

Проверим уникальные значения в столбце "children".

In [10]:
print(df['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


Обнаружились ошибочные данные -1 и 20. Вероятнее всего, в первом случае случайно поставили знак "-", а во втором - 0.

Заменим данные на предположительно верные.

In [11]:
df['children'] = df['children'].replace(-1, 1)
df['children'] = df['children'].replace(20, 2)

Проверим уникальные значения в столбце "days_employed".

In [12]:
print(df['days_employed'].value_counts())

-327.685916     1
-1580.622577    1
-4122.460569    1
-2828.237691    1
-2636.090517    1
               ..
-7120.517564    1
-2146.884040    1
-881.454684     1
-794.666350     1
-3382.113891    1
Name: days_employed, Length: 19351, dtype: int64


В этом столбце 'days_employed' указаны отрицательные значения, их можно заменить положительными.

Заменим отрицательные значения стажа на положительные

In [13]:
def employed (value):
    if value < 0:
        value *= -1
        return value
    else:
        return value
df['days_employed'] = df['days_employed'].apply(employed)

Теперь пропуски в этом столбце можно заполнить медианным значением, для этого сгруппируем данные по возрасту.

In [14]:
days_employed_median = df.groupby('dob_years')['days_employed'].median()


И заполним пропуски, используя цикл for.

In [15]:
for years in days_employed_median.index:
    median = days_employed_median[years]
    df.loc[df.loc[:, 'dob_years']==years, 'days_employed'] = df.loc[df.loc[:, 'dob_years']==years, 'days_employed'].fillna(median)
print('Пропущенных значений в столбце ', df['days_employed'].isna().sum())

Пропущенных значений в столбце  0


Проверим уникальные значения в столбце "dob_years".

In [16]:
print(df['dob_years'].value_counts())


35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64


В столбце 'dob_years' у 101 человека возраст указан 0, эти данные можно удалить.

Удалим строки, в которых указан возраст 0.


In [88]:
delete = df[df['dob_years']==0].index

str_del_count=0
for drop_str in delete:
    df = df.drop(drop_str)

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
22    183
66    183
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64


In [18]:
df['dob_years'] = df['dob_years'].value_counts().sort_index()

Проверим уникальные значения в столбце "education".

In [24]:
print(df['education'].value_counts())


среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64


Аномалий нет, но используется разный регистр. Обработаем его позже при удалении дубликатов.

Проверим уникальные значения в столбце "education_id".

In [25]:
print(df['education_id'].value_counts())


1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64


Аномалий нет.

Проверим уникальные значения в столбце "family_status".

In [26]:
print(df['family_status'].value_counts())

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64


Аномалий нет.

Проверим уникальные значения в столбце "education_id".

In [27]:
print(df['family_status_id'].value_counts())


0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64


Аномалий нет.

Проверим уникальные значения в столбце "gender".

In [28]:
print(df['gender'].value_counts())


F      14236
M       7288
XNA        1
Name: gender, dtype: int64


В столбце 'gender' у 1 человека пол указан как XNA, определить пол невозможно, укажем по меньшему количеству значений - m, но можно и удалить строку.


Заменим пол XNA на мужской

In [29]:
df['gender'] = df['gender'].replace('XNA', 'm')

Проверим уникальные значения в столбце "income_type".

In [30]:
print(df['income_type'].value_counts())


сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
студент                1
в декрете              1
Name: income_type, dtype: int64


Аномалий нет.

Проверим уникальные значения в столбце "debt".

In [31]:
print(df['debt'].value_counts())


0    19784
1     1741
Name: debt, dtype: int64


Аномалий нет.

Проверим уникальные значения в столбце "total_income".

In [32]:
print(df['total_income'].value_counts())


142594.396847    1105
172357.950966     509
118514.486412     414
150447.935283     147
499163.144947       2
                 ... 
101516.604975       1
239154.168013       1
165009.733021       1
94270.049769        1
189255.286637       1
Name: total_income, Length: 19353, dtype: int64


Аномалий нет.

Проверим уникальные значения в столбце "purpose".

In [33]:
print(df['purpose'].value_counts())

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

В столбце 'purpose' орфографическая ошибка, указано ремонт жилью, нужно исправить.

Исправим орфографическую ошибку.

In [34]:
df['purpose'] = df['purpose'].replace('ремонт жилью', 'ремонт жилья')


Причинами возникновения большинства артефактов является человеческий фактор - при заполнении ошибочно нажали клавишу, которая, чаще всего, находится рядом.

### Шаг 2.3. Изменение типов данных.

В двух столбцах необходимо заменить вещественный тип данных на целочисленный.

Замена вещественного типа данных на целочисленный, так как дни считают целыми числами

In [35]:
df['days_employed'] = df['days_employed'].astype('int')

Замена вещественного типа данных на целочисленный

In [36]:
df['total_income'] = df['total_income'].astype('int')

Проверим, что все сделали верно

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  int64  
 2   dob_years         58 non-null     float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int64  
 11  purpose           21525 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


### Шаг 2.4. Удаление дубликатов.

В таблице встречаются повторяющиеся данные, их необходимо удалить.

Для удаления всх дубликатов сначала даннные всех столбцов необходимо привести к единому регистру.

In [38]:
df['education'] = df['education'].str.lower()
df['family_status'] = df['family_status'].str.lower()
df['gender'] = df['gender'].str.lower()
df['income_type'] = df['income_type'].str.lower()
df['purpose'] = df['purpose'].str.lower()

Найдём количество дубликатов в датафрейме.

In [39]:
print('Дубликатов до удаления', df.duplicated().sum())

Дубликатов до удаления 71


Удалим их.

In [40]:
df = df.drop_duplicates() 

Проверим, что удалили все дубликаты.

In [41]:
print('Дубликатов после удаления', df.duplicated().sum())

Дубликатов после удаления 0


В столбцах датафрейма данные были заполнены в разном регистре, возможно, их вносили разные люди. Для того, чтобы избежать этого в организации необходим внутренний документ, реграментирующий порядок ведения документации, в том числе и размер шрифта.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим два новых дадафрейма, в которых укажем идентификаторы образования и семейного статуса. После этого удалим столбцы с идентификаторами из исходного датафрейма.

Создадим новый датафрейм с уровнем образования и его идентификатором.

In [42]:
education = df[['education', 'education_id']]

Так как уровень образования и его идентификатор повторяются, удалим эти дубликаты.

In [43]:
education = education.drop_duplicates() 

Создадим новый датафрейм с семейным статусом и его идентификатором.

In [44]:
family_status = df[['family_status', 'family_status_id']]

Так как семейный статус и его идентификатор повторяются, удалим эти дубликаты.

In [45]:
family_status = family_status.drop_duplicates() 

Удалим из исходного датафрейма столбцы с уровнем образования и семейным статусом, оставим только их числовой идентификатор

In [46]:
df.drop(['education', 'family_status'], axis = 1)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,101.0,0,0,f,сотрудник,0,253875,покупка жилья
1,1,4024,,1,0,f,сотрудник,0,112080,приобретение автомобиля
2,0,5623,,1,0,m,сотрудник,0,145885,покупка жилья
3,3,4124,,1,0,m,сотрудник,0,267628,дополнительное образование
4,0,340266,,1,1,f,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...
21520,1,4529,,1,1,f,компаньон,0,224791,операции с жильем
21521,0,343937,,1,0,f,пенсионер,0,155999,сделка с автомобилем
21522,1,2113,,1,1,m,сотрудник,1,89672,недвижимость
21523,3,3112,,1,0,m,сотрудник,1,244093,на покупку своего автомобиля


### Шаг 2.6. Категоризация дохода.

Для проверки гипотезы о взаимосвязи уровня дохода и количества просроченных платежей удобнее рассортировать доход клиентов по категориям и присвоить ей идентификатор.

Напишем собственную функцию, которая рассортирует уровень дохода клиентов по категориям.

In [47]:
def total_income_category (total_income):
    if 0 < total_income <= 30000:
        return 'E'
    if 30001 <= total_income <= 50000:
        return 'D'
    if 50001 <= total_income <= 200000:
        return 'C'
    if 200001 <= total_income <= 1000000:
        return 'B'
    if 1000001 <= total_income:
        return 'A'

Добавим в датафрейм новый столбец с категорией дохода.

In [48]:
try:    
    df['total_income_category'] = df['total_income'].apply(total_income_category) 
except:
    print('Не могу добавить!')

Проверим, что столбец добавлен и всё в порядке.

In [49]:
print(df['total_income_category'].value_counts(dropna=False))

C    16015
B     5042
D      350
A       25
E       22
Name: total_income_category, dtype: int64


<div class="alert alert-danger">
<h1> Комментарий ревьюера &#9940;</h1>

Здесь код упал с ошибкой:
    
      File "/tmp/ipykernel_54/3342736316.py", line 19
        return 'Не могу добавить!'
        ^
    SyntaxError: 'return' outside function
    
Дело в том, что команда `return` работает только внутри функций. Вне функций в блоке `try-except` ее необходимо заменить на `print()` или `display()`. 

</div>

<div class="alert alert-info">
Спасибо, учту этот момент на будущее.
</div>

### Шаг 2.7. Категоризация целей кредита.

Для проверки гипотезы о взаимосвязи целей кредита и количества просроченных платежей удобнее рассортировать цели по категориям.

Напишем собственную функцию, которая рассортирует цели кредита по категориям.

In [50]:
def purpose_credit (purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'    
    if 'свад' in purpose:
        return 'проведение свадьбы'
    if 'образ' in purpose:
        return 'получение образования'
    else:
        return 'операции с недвижимостью'

Добавим в датафрейм новый столбец с категорией целей кредита.

In [51]:
try:
    df['purpose_category'] = df['purpose'].apply(purpose_credit)
except:
    print('Не могу добавить!')

Проверим, что столбец добавлен и всё в порядке.

In [52]:
print(df['purpose_category'].value_counts(dropna=False))

операции с недвижимостью    10811
операции с автомобилем       4306
получение образования        4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64


Предобработка обнаружила две проблемы в данных:

пропущенные значения,
дубликаты — явные и неявные.

Мы заполнили пропуски и разделили уровень дохода клиентов и цель получения кредита на категории, чтобы упростить работу с таблицей. Без дубликатов исследование станет более точным.

Теперь можно перейти к проверке гипотез.

### Ответы на вопросы.

##### Вопрос 1:
Есть ли зависимость между количеством детей и возвратом кредита в срок?


Для ответа на вопрос и проверки гипотезы взаимосвязи увеличения количества детей и возрастанием задолженностей сначала создадим сводную таблицу, в которой вычислим отношение просроченных платежей среди людей с определённым количеством детей к общему количеству людей с таким же количеством детей.

In [53]:
data_pivot = df.pivot_table(index=['children'], values='debt', aggfunc=['count', 'sum', 'mean'])

Изучим полученную таблицу.

In [54]:
display(data_pivot) 

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14091,1063,0.075438
1,4855,445,0.091658
2,2128,202,0.094925
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


Тот, кто не имеет детей, а также имеет 5 детей чаще возвращают кредит в срок. Люди, имеющие 1, 2 или 4 детей реже возвращают кредит в срок (9,2%, 9,5%, 9,7% соответственно).


In [53]:
# код ревьюера
display(data_pivot)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14091,1063,0.075438
1,4855,445,0.091658
2,2128,202,0.094925
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


##### Вопрос 2:
Есть ли зависимость между семейным положением и возвратом кредита в срок?


Для ответа на вопрос и проверки второй гипотезы о взаимосвязи семейного положения и возврата кредита в срок сначала создадим сводную таблицу, в которой вычислим отношение просроченных платежей среди людей с определённым семейным положением к общему количеству людей с таким же семейным положением.

In [57]:
data_pivot_a = df.pivot_table(index=['family_status_id'], values=["debt"], aggfunc=['sum', 'count', 'mean'])

Изучим полученную таблицу.

In [58]:
display(data_pivot_a)

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,931,12339,0.075452
1,388,4151,0.093471
2,63,959,0.065693
3,85,1195,0.07113
4,274,2810,0.097509


Чаще всего кредит возвращают в срок вдовцы, а задерживают не женатые/не замужние. Разница между возвратами в срок среди разведённых (7,1) и женатых (7,4%) незначительна. Также часто задерживают выплаты по кредиту живущие в гражданском браке (9,3%).

##### Вопрос 3:
Есть ли зависимость между уровнем дохода и возвратом кредита в срок?


Для ответа на вопрос и проверки третьей гипотезы о снижении просроченных платежей с увеличением дохода клиента сначала создадим сводную таблицу, в которой вычислим отношение просроченных платежей среди людей с определённым уровнем дохода к общему количеству людей с таким же уровнем дохода.

In [59]:
data_pivot_b = df.pivot_table(index=['total_income_category'], values='debt', aggfunc=['sum', 'count', 'mean'])

Изучим полученную таблицу.

In [60]:
display(data_pivot_b)

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,2,25,0.08
B,356,5042,0.070607
C,1360,16015,0.08492
D,21,350,0.06
E,2,22,0.090909


Люди, зарабатывающие 30001-50000, чаще других возвращают кредит в срок. Наиболее часто задерживают выплату зарабатывающие до 30000.

##### Вопрос 4:
Как разные цели кредита влияют на его возврат в срок?

Для ответа на вопрос и проверки гипозы о взаимосвязи цели кредита и его возврате в срок сначала создадим сводную таблицу, в которой вычислим отношение просроченных платежей среди людей с определённой целью кредита к общему количеству людей с такой же целью кредита.

In [61]:
data_pivot_c = df.pivot_table(index=['purpose_category'], values=['debt'], aggfunc=['sum', 'count', 'mean'])

Изучим полученную таблицу.

In [62]:
print(data_pivot_c)

                          sum  count      mean
                         debt   debt      debt
purpose_category                              
операции с автомобилем    403   4306  0.093590
операции с недвижимостью  782  10811  0.072334
получение образования     370   4013  0.092200
проведение свадьбы        186   2324  0.080034


Чаще кредит возвращают в срок по категории операции с недвижимостью (7,2%), реже всего - операции с автомобилем (9,3%). Также в категории получение образования (9,2%) часто задерживают выплату.

##### Вывод 1:

Гипотеза о возрастании просроченных платежей с увеличением количества детей подтвердилась лишь частично. У бездетных просроченных платежей действительно меньше, но у семей с пятью детьми просрочек нет вообще (в этом случае, вероятнее всего, слишком маленькая выборка - таких семей всего 9). Так же процент просроченных платежей увеличивается при одном или двух детях, но в семьях с тремя детьми он ниже.

##### Вывод 2:

Гипотеза о том, что люди в браке чаще других возвращают кредит в срок не подтвердилась, так как чаще всего во время возвращают кредит вдовцы. Но разница между возвратами в срок среди разведённых (7,1%) и женатых (7,4%) незначительна. Чаще других выплату задерживают не женатые/не замужние.

##### Вывод 3:

Гипотеза о том, что количепство просроченных платежей снижается с увеличением дохода не подтвердилась. Наиболее дисциплинированные люди, зарабатывающие 30001-50000 (категория D). Уровень дохода прямо влияяет на возврат кредита в срок, так как больше всего задержек у людей с самым низким уровнем дохода. 

##### Вывод 4:

Гипотеза о том, что цель кредита влияет на его возврат в срок полностью подтвердилась. В категории операции с недвижимостью меньше всего просроченных выплат по кредиту (7,2%), больше всего в категории операции с автомобилем (9,3%). Также в категории получение образования (9,2%) часто задерживают выплату.

## Общий вывод:

**В ходе выполнения проекта мы:**
обработали данные, 
заполнили пропуски, 
удалили дубликаты, 
выявили аномалии в данных, сделали предположения о природе их возникновения. 

Ответили на все поставленные вопросы, проверили гипотезы, для чего сделали сводные таблицы. Посчитали отношение просроченных платежей по кагориям к общему количеству клиентов в этой категории, нашли закономерности в просроченных платежах по кредитам.

Исходя из ответов на вопросы можно составить портрет идеального заёмщика: *вдова/вдовец без детей, зарабатывающий 30001-50000, с целью совершить операции с недвижимостью.*

__Текст ревьюера__

В ходе выполнения проекта:
1. Мы обработали данные:
    - заполнили пропуски, 
    - удалили дубликаты. 
    - выявили аномалии в данных, сделали предположения о природе их возникновения. 
2. Ответили на все поставленные вопросы, для чего сделали сводные таблицы. посчитали отношение просроченных платежей по кагориям к общему количеству клиентов в этой категории, нашли закономерности в просроченных платежах по кредитам.

Исходя из ответов на вопросы можно составить портрет идеального заёмщика: _вдова/вдовец без детей, зарабатывающий 30001-50000, с целью совершить операции с недвижимостью._