# Исследование надежности заемщиков банка

**Описание проекта:**

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Описание данных:**
* `children` — количество детей в семье 
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента 
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента 
* `income_type` — тип занятости 
* `debt` — имел ли задолженность по возврату кредитов 
* `total_income` — ежемесячный доход 
* `purpose` — цель получения кредита 

**Исследование проведем по следующему плану:**
* обзор данных
* предобработка 
* ответы на вопросы
* общий вывод

## Обзор данных.

Откроем таблицу и изучим общую информацию о данных.

In [1]:
# импортируем библиотеку pandas
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

In [2]:
# откроем таблицу данных, с последующим сохранением в переменную data
data = pd.read_csv('/datasets/data.csv')
# посмотрим на первые 15 строк таблицы data
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
# выведим общую информацию о таблице
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [4]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


 **Вывод:**

Таблица содержит 12 столбцов и 21525 строк с разными типами данных.

При этом в столбцах `days_employed` и `total_income` всего по 19351 строк, что означает наличие пропусков.

* children — количество детей в семье (int64)
* days_employed — общий трудовой стаж в днях (float64)
* dob_years — возраст клиента в годах (int64)
* education — уровень образования клиента (object)
* education_id — идентификатор уровня образования (int64)
* family_status — семейное положение (object)
* family_status_id — идентификатор семейного положения (int64)
* gender — пол клиента (object)
* income_type — тип занятости (object)
* debt — имел ли задолженность по возврату кредитов (int64)
* total_income — ежемесячный доход (float64)
* purpose — цель получения кредита (object)

## Предобработка данных.

###  Заполнение пропусков.

Начнем со столбца `days_employed`.
Заменим пропуски на медианные значения. Но так как трудовой стаж не может быть отрицательным, то прежде всего вернем абсолютные значения чисел с помощью функции `abs()`.

In [5]:
data['days_employed'] = data['days_employed'].abs()

В задании рекомендованно заполнить пропуски медианным значением по столбцу. Предполагаю, что для более точного заполнения пропусков, следует посчитать медианы общего трудового стажа в зависимости от возраста клиентов:
* клиенты, возрастом до 25 лет
* клиенты, возрастом от 25 до 50 лет
* клиенты, возрастом старше 50 лет

In [6]:
days_employed_median_25 = data.loc[data['dob_years'] <= 25]['days_employed'].median()
days_employed_median_25_50 = data.loc[(data['dob_years'] > 25) & (data['dob_years'] <= 50)]['days_employed'].median()
days_employed_median_50 = data.loc[data['dob_years'] > 50]['days_employed'].median()

# выведем медианы на экран
print(days_employed_median_25)
print(days_employed_median_25_50)
print(days_employed_median_50)

846.2133409029925
1699.7022739850431
333910.2258345897


Заменим пропуски на медианы.

In [7]:
data.loc[data['dob_years'] <= 25, 'days_employed'] = data.loc[data['dob_years'] <= 25, 'days_employed'].fillna(value=days_employed_median_25)
data.loc[(data['dob_years'] > 25) & (data['dob_years'] <= 50),'days_employed'] = data.loc[(data['dob_years'] > 25) & (data['dob_years'] <= 50),'days_employed'].fillna(value=days_employed_median_25_50)
data.loc[data['dob_years'] >= 50, 'days_employed'] = data.loc[data['dob_years'] >= 50, 'days_employed'].fillna(value=days_employed_median_50)
# выполним проверку
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Пропуски в `days_employed` заполнили. Теперь расчитаем медианы для столбца `total_income`. Для этого выведем значения столбца по группам.

In [8]:
data['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

Выясним в каких группах имеются пропуски.

In [9]:
data[data.total_income.isna()]['income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

Найдем медианы для столбца `total_income` по 5 категориям (категории, в которых имеются пропуски):
* сотрудник          
* компаньон
* пенсионер           
* госслужащий 
* предприниматель

In [10]:
# облегчим себе задачу, используя метод transform() 
data['total_income'] = data['total_income'].fillna(data.groupby('income_type')['total_income'].transform("median"))

Проверим, остались ли в таблице пропуски.

In [11]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Все хорошо, пропусков не осталось.

**Вывод:**

В ходе исследования таблицы обнаружены пропуски значений. Скорее всего это является следствием технической ошибки програмы при заполнении данных, так как количество пропусков в двух столбцах совпадает по количеству. 

Заполнение пропусков медианными значениями, является наиболее оптимальным вариантом решения проблемы, так как удаление строк с пропусками может исказить результаты анализа. Особое внимание стоит уделять разбивке по категориям при расчете медианы.


###  Проверка данных на аномалии и исправления.

Проверим столбцы на аномальные значения. Для этого применим функцию `value_counts` поочередно к столбцам, значения в которых имют тип данных `object`.

In [12]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [13]:
data['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [14]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [15]:
data['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

**Итак, в каждом стобце имеются аномальные значения:**
* в столбце `children` это значения `20` и `-1`
* в столбце `dob_years` это значения `0`
* в столбце `gender` это значение `xna`
* в столбце `purpose` это значение   `ремонт жилью `

Скорее всего значение `20` присвоено в результате случайного нажатия клавиши `0` на клавиатуры. Заменим на значение `2`.

А вот значение `-1` скорее всего является следствием технической ошибки. Заменим на значение `1`.

In [16]:
data.loc[data['children'] == 20, 'children'] = 2
data.loc[data['children'] == -1, 'children'] = 1
# проверим
data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Само собой возраст человека не может быть равен нулю. В нашей задаче данные возраста никак не повлияют на итоговые значения, поэтому оставим этот столбец без изменений.

Значение `xna` в столбце `gender` является единственным на всю таблицу, поэтому просто удалим эту строку.

In [17]:
data = data[data['gender'] != 'xna']
# проверим
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

В столбце `purpose` обратим внимание на значение `ремонт жилью`. Скорее всего ошибка заключена непосредственно в самой категории, присваиваемой значению. Исправим на корректное значение `ремонт жилья`.

In [18]:
data.loc[data['purpose'] == 'ремонт жилью', 'purpose'] = 'ремонт жилья'
# проверим
data['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилья                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

###  Изменение типов данных.

Так как общий трудовой стаж исчисляется полными днями, а ежемесячный доход нет смысла считать до копеек - приведем значения столбцов `days_employed` и `total_income` к целочисленным.

In [19]:
data['days_employed'] = data['days_employed'].astype(int)
data['total_income'] = data['total_income'].astype(int)
# проверим
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int64 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int64 
 11  purpose           21525 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.1+ MB


###  Удаление дубликатов.

Проверим таблицу на количество строк-дубликатов.

In [20]:
data.duplicated().sum()

54

In [21]:
# В таблице обнаружено 54 дубликата. Выведем их на экран.
data[data.duplicated()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,1699,41,среднее,1,женат / замужем,0,F,сотрудник,0,142594,покупка жилья для семьи
4182,1,1699,34,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,142594,свадьба
4851,0,333910,60,среднее,1,гражданский брак,1,F,пенсионер,0,118514,свадьба
5557,0,333910,58,среднее,1,гражданский брак,1,F,пенсионер,0,118514,сыграть свадьбу
7808,0,333910,57,среднее,1,гражданский брак,1,F,пенсионер,0,118514,на проведение свадьбы
8583,0,333910,58,высшее,0,Не женат / не замужем,4,F,пенсионер,0,118514,дополнительное образование
9238,2,1699,34,среднее,1,женат / замужем,0,F,сотрудник,0,142594,покупка жилья для сдачи
9528,0,333910,66,среднее,1,вдовец / вдова,2,F,пенсионер,0,118514,операции со своей недвижимостью
9627,0,333910,56,среднее,1,женат / замужем,0,F,пенсионер,0,118514,операции со своей недвижимостью
10462,0,333910,62,среднее,1,женат / замужем,0,F,пенсионер,0,118514,покупка коммерческой недвижимости


Применим функцию `drop_duplicates()`, чтобы избавиться от дубликатов.

In [22]:
data = data.drop_duplicates()
# проверим
data.duplicated().sum()

0

Как, видим не осталось ни единой строки-дубликата. В задании также было указано обратить внимание на регистр значений в столбце `education` на неявные дубликаты. Проверим.

In [23]:
data['education'].value_counts()

среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Действительно, значения имеют разный регистр. Приведем столбец `education` и другие столбцы, имеющие тип данных `object`, к нижнему регистру.

In [24]:
data['education'] = data['education'].str.lower()
data['family_status'] = data['family_status'].str.lower()
data['gender'] = data['gender'].str.lower()
data['income_type'] = data['income_type'].str.lower()
# проверим, что регистр значений стал единым
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,m,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,f,компаньон,0,240525,операции с жильем
7,0,152,50,среднее,1,женат / замужем,0,m,сотрудник,0,135823,образование
8,2,6929,35,высшее,0,гражданский брак,1,f,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,m,сотрудник,0,144425,покупка жилья для семьи


**Вывод:**

Выбор метода `duplicated()` обусловлен способностью находить в датафрейме явные дубликаты. Именно это и требовалось в задании.

Причина появления явных дубликатов возможно заключается в повторной отправке заявок клиентами.

###  Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Сформируем новые датафреймы словари:
* по столбцу `education`
* по столбцу `family_status`	

Начнем со столбца `education`.

In [25]:
education_new_dataframe = data[['education_id', 'education']]
# удалим дубликаты
education_new_dataframe = education_new_dataframe.drop_duplicates().reset_index(drop=True)
# проверим
education_new_dataframe.head(15)

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


Сделаем тоже самое для столбца `family_status` и удалим дубликаты.

In [26]:
family_status_new_dataframe = data[['family_status_id','family_status']]
# удалим дубликаты
family_status_new_dataframe = family_status_new_dataframe[['family_status_id','family_status']].drop_duplicates().reset_index(drop=True)
# проверим
family_status_new_dataframe.head()

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


Удалим из исходного датафрейма столбцы `education` и `family_status` и посмотрим, что получилось.

In [27]:
del data['education']
del data['family_status']
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21471 entries, 0 to 21524
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21471 non-null  int64 
 1   days_employed     21471 non-null  int64 
 2   dob_years         21471 non-null  int64 
 3   education_id      21471 non-null  int64 
 4   family_status_id  21471 non-null  int64 
 5   gender            21471 non-null  object
 6   income_type       21471 non-null  object
 7   debt              21471 non-null  int64 
 8   total_income      21471 non-null  int64 
 9   purpose           21471 non-null  object
dtypes: int64(7), object(3)
memory usage: 1.8+ MB


###  Категоризация дохода.

Добавим в основной датафрейм новый столбец `total_income_category`. Каждому клиенту будет присвоена категория, в зависимости от уровня его дохода:

* 0-30000 - категория `'e'`
* 30001-50000 - категория `'d'`
* 50001-200000 - категория `'c'`
* 200001-1000000 - категория `'b'`
* 1000001 и выше - категория `'a'`

In [28]:
def total_income_category(total_income):
    if total_income <= 30000:
        return 'e'
    if 30001 < total_income <= 50000:
        return 'd'
    if 50001 < total_income <= 200000:
        return 'c'
    if 200001 < total_income <= 1000000:
        return 'b'
    if total_income >= 1000001:
        return 'a'
    
# применим метод apply() 
data['total_income_category'] = data['total_income'].apply(total_income_category)
# проверим
data['total_income_category'].value_counts()

c    16032
b     5041
d      350
a       25
e       22
Name: total_income_category, dtype: int64

###  Категоризация целей кредита.

По аналогии с предыдущим расчетом, добавим новый столбец `purpose_category`. Каждому клиенту будет присвоена категория в зависимости от цели кредита:
* слова с корнем `авто` войдут в категорию `'операции с автомобилем'`,
* слова с корнем `недвиж` или `жил` войдут в категорию `'операции с недвижимостью'`,
* слова с корнем `свадьб`  войдут в категорию `'проведение свадьбы'`,
* слова с корнем `образован`  войдут в категорию `'получение образования'`.

In [29]:
def purpose_category(purpose):
    if 'авто' in purpose:
        return 'операции с автомоблием'
    if 'недвиж' in purpose or 'жил' in purpose:
        return 'операции с недвижимостью'
    if 'свадьб' in purpose:
        return 'проведение свадьбы'
    if 'образован' in purpose:
        return 'получение образования'

# применим метод apply()
data['purpose_category'] = data['purpose'].apply(purpose_category)
# проверим 
data['purpose_category'].value_counts()

операции с недвижимостью    10814
операции с автомоблием       4308
получение образования        4014
проведение свадьбы           2335
Name: purpose_category, dtype: int64

## Ответы на вопросы.

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

Для ответа на данный вопрос построим сводную таблицу с помощью метода `pivot_table()`:

In [30]:
pivot_table_children = data.pivot_table(index=['children'], values='debt', aggfunc= ['sum', 'count'])

# добавим в сводную таблицу новый столбец - отношение количества клиентов с "просрочкой платежа" к общему числу клиентов
# используем команду round(2) для окургления значения до 2 знаков после запятой и astype(str) для приведения значения 
# к строковому значению, чтобы вывести итоговое значение в процентах
pivot_table_children['ratio'] = ((pivot_table_children['sum'] / pivot_table_children['count']) * 100).round(2).astype(str) + '%'

# отсортируем результаты просрочек по возрастанию
pivot_table_children = pivot_table_children.sort_values(by='ratio')

# выведем на экран 
pivot_table_children

Unnamed: 0_level_0,sum,count,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
5,0,9,0.0%
0,1063,14107,7.54%
3,27,330,8.18%
1,445,4856,9.16%
2,202,2128,9.49%
4,4,41,9.76%


**Вывод:**

Как видим из результатов, самая ответственная категория заемщиков - `без детей`. При этом мы не берем в расчет заемкщок с 5 детьми, так их количество черезчур мало для анализа.

В целом можно сделать вывод, что вместе с возрастанием колличества детей в семье растет и риск просрочки по кредиту.

Возможно имело смысл объединить категории `3`,`4`,`5` в одну и посмотреть на результаты.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

**Построим сводную таблицу с помощью метода `pivot_table()`:**

In [31]:
pivot_table_family = data.pivot_table(index=['family_status_id'], values='debt', aggfunc= ['sum', 'count'])

# добавим в сводную таблицу новый столбец - отношение количества клиентов с "просрочкой платежа" к общему числу клиентов
# используем команду round(2) для окургления значения до 2 знаков после запятой  
# и astype(str) для приведения значения к строковому значению, чтобы вывести итоговое значение в процентах
pivot_table_family['ratio'] = ((pivot_table_family['sum'] / pivot_table_family['count']) * 100).round(2).astype(str) + '%'

# отсортируем результаты просрочек по возрастанию
pivot_table_family = pivot_table_family.sort_values(by='ratio')

# для наглядности, добавим столбец с описанием семейного статуса, применив команду merge()
pivot_table_family = pivot_table_family.merge(family_status_new_dataframe, on = 'family_status_id', how = 'right')

# выведем на экран результат
pivot_table_family

Unnamed: 0,family_status_id,"(sum, debt)","(count, debt)","(ratio, )",family_status
0,0,931,12344,7.54%,женат / замужем
1,1,388,4163,9.32%,гражданский брак
2,2,63,959,6.57%,вдовец / вдова
3,3,85,1195,7.11%,в разводе
4,4,274,2810,9.75%,не женат / не замужем


**Вывод:**

Исходя из результатов расчета видно, что наименее подвержены риску просрочки люди, потерявшие супруга(у). Возможно поэтому кредит берется более осознанно.

А вот кто более подвержен риску просрочки так это люди, несостоящие в браке. Смею предположить, что таковыми являются клиенты более молодого возраста, как правило, не готовые к взрослой жизни.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [32]:
pivot_table_income = data.pivot_table(index=['total_income_category'], values='debt', aggfunc= ['sum', 'count'])

# добавим в сводную таблицу новый столбец - отношение количества клиентов с "просрочкой платежа" к общему числу клиентов
# используем команду round(2) для окургления значения до 2 знаков после запятой  
# и astype(str) для приведения значения к строковому значению, чтобы вывести итоговое значение в процентах
pivot_table_income['ratio'] = ((pivot_table_income['sum'] / pivot_table_income['count']) * 100).round(2).astype(str) + '%'

# отсортируем результаты просрочек по возрастанию
pivot_table_income = pivot_table_income.sort_values(by='ratio')

# выведем на экран результат
pivot_table_income

Unnamed: 0_level_0,sum,count,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
d,21,350,6.0%
b,356,5041,7.06%
a,2,25,8.0%
c,1360,16032,8.48%
e,2,22,9.09%


**Вывод:**

В данном сравнении однозначно отличились в лучшую сторону клиенты с уровнем дохода от 30 т. до 50 т. рублей.Так как этот класс можно считать уровнем достатка ниже среднего, то скорее всего люди подходят к вопросу кредитования крайне ответственно - доход распределяется заранее.

Категории людей с достатком более 1 млн. рублей и менее 30 т. рублей не очень то активно берут кредиты. На основе такой маленькой выборки сложно дать точный ответ. 

Наиболее рискованной категорией остается сегмент клиентов с достатком выше среднего. Возможно это связано с преднамеренным завышением данных о своем достатке, что зачастую способствует невозможности платить вовремя.

### Как разные цели кредита влияют на его возврат в срок?

In [33]:
pivot_table_purpose_category = data.pivot_table(index=['purpose_category'], values='debt', aggfunc= ['sum', 'count'])

# добавим в сводную таблицу новый столбец - отношение количества клиентов с "просрочкой платежа" к общему числу клиентов
# используем команду round(2) для окургления значения до 2 знаков после запятой  
# и astype(str) для приведения значения к строковому значению, чтобы вывести итоговое значение в процентах
pivot_table_purpose_category['ratio'] = ((pivot_table_purpose_category['sum'] / pivot_table_purpose_category['count']) * 100).round(2).astype(str) + '%'

# отсортируем результаты просрочек по возрастанию
pivot_table_purpose_category = pivot_table_purpose_category.sort_values(by='ratio')

# выведем на экран результат
pivot_table_purpose_category

Unnamed: 0_level_0,sum,count,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с недвижимостью,782,10814,7.23%
проведение свадьбы,186,2335,7.97%
получение образования,370,4014,9.22%
операции с автомоблием,403,4308,9.35%


**Вывод:**

Очевидно, в данной выборке самым желанным клиентом для банка являются ипотечные заемщики. На самом деле жилищный вопрос является наиважнейшим в жизни современного человека.

Кредит на свадьбу так же берут люди, нацеленные на совместную жизнь. Они осознают ответсвенность как перед банком, так и друг перед другом.

Самой рискованной покупкой на кредитные деньги остается автомобиль. Таким образом люди хотят показать свою статусность, которой на самом деле может и не быть. А это приводит к проблемам со своевременными оплатами.

## Общий вывод:

Подводя итог, приходим к заключению, что идеальный клиент для банка это - клиент, потерявший супруга(у), без детей, с доходом от 30т. до 50т. рублей, планирующий к покупке собственное жилье.

Полной противоположностью же будет иной образ - клиент, не состоящий в браке, с 2-мя детьми, с доходом от 50т. до 200т. рублей, планирующий купить автомобиль.