# Исследование надёжности заёмщиков



## Этап 1. Получение данных и изучение общей информации.

**Импорт библиотек**

In [1]:
import pandas as pd


<b>Прочитаем файл `csv`, предоставленный сервисом для проекта и сохраним его в переменной `data`:

In [None]:
data = pd.read_csv('...csv')

<b> Изучим общую информации о данных в таблице `data`:

In [2]:
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод**
* Данные содержат 12 столбцов и размещены на 21525 строках. Таблица содержит три типа данных(вещественный, целочисленный и строковый). Названия столбцов написаны согласно правилам хорошего стиля: в змеином регистре, строчными буквами, без дополнительных пробелов. В таблице обнаружены артефакты(отрицательное количество дней трудового стажа), пропуски, значения столбца 'education_id'заполнены в разных регистрах.

## Этап 2. Предобработка данных

### Обработка пропусков

**Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений:**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Выведем % пропусков от общего числа строк:**

In [6]:
data.isna().mean() * 100


children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

**Вывод: % пропусков от общего числа строк - 10%. Можно сделать вывод, что это незначительные потери данных для проведения нашего анализа.**

**Вывод:**
- Пропуски обнаружены одновременно в двух столбцах, отображающих общий трудовой стаж в днях и ежемесячный доход. Можно предположить,что пропуски связаны с технической ошибкой при выгрузке данных. Думаю, что пропущенные значения в days_employed не влияют на исследование. Достаточно заменить их явными обозначениями. Заменим пропущенные значения в столбце days_employed на -100, чтобы сохранить в столбце тип данных float. А значение в столбце с доходом заполняем в разрезе типа занятости медианными значениями.


**С помощью abs() сделаем все величины в столбце days_employed положительными. А затем пометим пропуски явным отрицательным значением.**

In [7]:
data['days_employed'] = data['days_employed'].abs()

In [8]:
data['days_employed'] = data['days_employed'].fillna(-100)

**Заполним пропуски в доходе в соответствие с категорией заемщика:**

In [9]:
data['total_income'] = data['total_income'].fillna(data.groupby('income_type')['total_income'].transform('median'))




**Изучим полученный результат:**

In [10]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [11]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Замена типа данных

**изменим тип данных в столбце`total_income` на целочисленный:**

In [12]:
data['total_income'] = data['total_income'].astype('int64')

In [13]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


In [14]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


**Вывод**
- С целью дальнейшего использования столбца `total_income` изменила тип данных в нем на int64 c помощью метода astype().Так как данный метод явлеятся наиболее подходящим для изменения вещественного типа данных на числовой в отдельном столбце.

### Обработка дубликатов

In [15]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

In [16]:
data['children'] = data['children'].replace(-1, 1)

In [17]:
data['children'] = data['children'].replace(20, 2)

In [18]:
data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [19]:
data['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

In [20]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [21]:
data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [22]:
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [23]:
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [24]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Приведем значение столбцов`family_status` и `education` к нижнему регистру:**

In [25]:
data['family_status'] = data['family_status'].str.lower()

**Проверим полученный результат:**

In [26]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

In [27]:
data['education'] = data['education'].str.lower()

**Проверим полученный результат:**

In [28]:
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [29]:
data['gender'] = data['gender'].replace('XNA', 'unknown')

In [30]:
data['gender'].unique()

array(['F', 'M', 'unknown'], dtype=object)

**Проверим данные на наличие явных дубликатов:**

In [31]:
data.duplicated().sum()

71

**Удалим все явные дубликаты:**

In [32]:
data = data.drop_duplicates().reset_index(drop=True)

**Вывод:**
* С целью выявления неявных дубликатов использовала метод `unique()` в каждом столбце. В столбце `gender` выявлено неверное значение `XNA`, однако оно не влияют на исследование. Достаточно заменить его явным обозначением. Заменим значение `XNA` в столбце `gender` на строку `unknown`. С целью удаления неявных дубликатов в строковых данных применила метод `str.lower()`



### Лемматизация

**Определим какие значения встречаются в столбце purpose, сколько их, какие самые популярные и тд. используя метод value_counts():**

In [33]:
data['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

**Создадим функцию для лемматизации, используя программу`pymystem3`:**

In [34]:
from pymystem3 import Mystem
m = Mystem()

def create_category_purpose(row):
    lem_purpose = m.lemmatize(row['purpose'])
    if 'автомобиль' in lem_purpose:
        return 'автомобиль'
    if ('жилье' in lem_purpose) or ('недвижимость' in lem_purpose ):
        return 'недвижимость'
    if 'образование' in lem_purpose:
        return 'образование'
    if 'свадьба'in lem_purpose:
        return 'свадьба'

In [35]:
data['purpose_category'] = data.apply(create_category_purpose, axis=1)

**Изучим полученный результат:**

In [36]:
display(data.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость


**Вывод:**
* Для удаления дубликатов слов, записанных в разной форме применили метод лемматизации к столбцу `purpose` и записали результат в новый столбец - `purpose_category`.

### Категоризация данных

**Выделим минимальное, среднее и максимальное значение дохода в столбце `total_income`, применияя функции `min(),max() и mean()`. Затем, используя функцию и метод `apply()` произведем категоризацию  дохода на низкий, средний и высокий. Результат запишем в столбце `income_category`.**

In [37]:
data['total_income'].min()

20667

In [38]:
data['total_income'].max()

2265604

In [39]:
data['total_income'].mean().astype('int64')

165319

In [40]:
data['total_income'].median().astype('int64')

142594

In [41]:
def total_income_group(total_income):
    if total_income <= 100000:
        return 'низкий'
    if total_income <= 170000:
        return 'средний'
    return 'высокий'
data['income_category'] = data['total_income'].apply(total_income_group)

In [42]:
data['income_category'].value_counts()

средний    9273
высокий    7718
низкий     4463
Name: income_category, dtype: int64

**Для более точного распределения по категориям подойдет функция `percentile` из библиотеки `numpy`:**

In [63]:
import numpy as np
np.percentile(data['total_income'], q=[25,50,75])

array([107623.  , 142594.  , 195820.25])

**Полученные числа можно использовать как границы интервалов в функции `total_income_group` для более точного распределеия по категориям.**


In [43]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,высокий
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,средний
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,средний
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,высокий
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,средний
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость,высокий
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость,высокий
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование,средний
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба,низкий
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость,средний


**Категоризируем столбец `children` на две категории: дети есть и нет. Результат поместим в столбец `children_category`.**

In [44]:
def children_group(children):
    if children > 0:
        return 'есть'
    return 'нет'
data['children_category'] = data['children'].apply(children_group)

**Изучим полученный результат**

In [45]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_category,children_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,высокий,есть
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,средний,есть
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,средний,нет
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,высокий,есть
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,средний,нет
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость,высокий,нет
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость,высокий,нет
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование,средний,нет
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба,низкий,есть
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость,средний,нет


**Категоризируем столбец `family_status` на две категории: 0 - женат / замужем; 1 - не женат / не замужем.  Определим значение 'гражданский брак', 'вдовец / вдова', 'в разводе'- как 'не женат / не замужем' и отнесем к 1 категории. Результат поместим в столбец `family_status_id.`**

In [46]:
def family_status(elem):
    if elem > 0:
        return 1
    return 0
data['family_status_id'] = data['family_status_id'].apply(family_status)
data.head(30)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_category,children_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,высокий,есть
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,средний,есть
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,средний,нет
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,высокий,есть
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,средний,нет
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость,высокий,нет
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость,высокий,нет
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование,средний,нет
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба,низкий,есть
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость,средний,нет


**Вывод: выполнив категоризации можно приступать к созданию сводных таблиц для решения поставленных задач.**

## Этап 3. Ответьте на вопросы

**1. Есть ли зависимость между наличием детей и возвратом кредита в срок?**

In [47]:
pivot_table_children = data.pivot_table(index='children_category', columns= 'debt', values='days_employed', aggfunc='count')
display(pivot_table_children.head())

debt,0,1
children_category,Unnamed: 1_level_1,Unnamed: 2_level_1
есть,6685,678
нет,13028,1063


In [48]:
pivot_table_children['percent_1'] = pivot_table_children[1] / (pivot_table_children[1] + pivot_table_children[0]) * 100
display(pivot_table_children.head())

debt,0,1,percent_1
children_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
есть,6685,678,9.208203
нет,13028,1063,7.543822


In [49]:
pivot_table_children = data.pivot_table(index='children', columns= 'debt', values='days_employed', aggfunc='count')
display(pivot_table_children.head(10))

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,13028.0,1063.0
1,4410.0,445.0
2,1926.0,202.0
3,303.0,27.0
4,37.0,4.0
5,9.0,


In [50]:
pivot_table_children['percent_1'] = pivot_table_children[1] / (pivot_table_children[1] + pivot_table_children[0]) * 100
display(pivot_table_children.head(10))

debt,0,1,percent_1
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13028.0,1063.0,7.543822
1,4410.0,445.0,9.165808
2,1926.0,202.0,9.492481
3,303.0,27.0,8.181818
4,37.0,4.0,9.756098
5,9.0,,


In [51]:
data[data['children'] == 5]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_category,children_category
3977,5,-100.0,42,среднее,1,гражданский брак,1,M,сотрудник,0,142594,на покупку своего автомобиля,автомобиль,средний,есть
4394,5,3248.839837,36,среднее,1,женат / замужем,0,F,компаньон,0,168460,операции с недвижимостью,недвижимость,средний,есть
7859,5,773.124856,36,среднее,1,женат / замужем,0,F,сотрудник,0,48772,операции с жильем,недвижимость,низкий,есть
15787,5,418.199982,31,среднее,1,женат / замужем,0,F,сотрудник,0,77552,сделка с подержанным автомобилем,автомобиль,низкий,есть
15881,5,2286.262752,37,среднее,1,женат / замужем,0,F,сотрудник,0,256698,покупка недвижимости,недвижимость,высокий,есть
16173,5,387.317579,35,среднее,1,гражданский брак,1,F,госслужащий,0,126102,на проведение свадьбы,свадьба,средний,есть
20387,5,268.425464,38,начальное,3,женат / замужем,0,F,сотрудник,0,212545,заняться высшим образованием,образование,высокий,есть
20770,5,2386.600221,35,среднее,1,женат / замужем,0,F,компаньон,0,204241,жилье,недвижимость,высокий,есть
21087,5,1690.018117,59,среднее,1,женат / замужем,0,M,сотрудник,0,269068,операции со своей недвижимостью,недвижимость,высокий,есть


**Вывод**
* Оказалось, что среди семей с 5 детьми нет ни одного должника! Однако, процент задолженнности у семей с детьми выше(9.1% и 9,5% при наличии одного и двух детей соответственно), чем у семей без детей(7.5%). Поэтому можно сделать вывод, что зависимости между наличием детей и возвратом кредита в срок нет.

**2. Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [52]:
pivot_table_family_status = data.pivot_table(index='family_status_id', columns= 'debt', values='days_employed', aggfunc='count')
display(pivot_table_family_status.head(10))

debt,0,1
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,11408,931
1,8305,810


In [53]:
pivot_table_family_status['percent_1'] = pivot_table_family_status[1] / (pivot_table_family_status[1] + pivot_table_family_status[0]) * 100
display(pivot_table_family_status.head(10))

debt,0,1,percent_1
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,11408,931,7.545182
1,8305,810,8.886451


In [54]:
pivot_table_family_status = data.pivot_table(index='family_status', columns= 'debt', values='days_employed', aggfunc='count')
display(pivot_table_family_status.head(10))

debt,0,1
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
в разводе,1110,85
вдовец / вдова,896,63
гражданский брак,3763,388
женат / замужем,11408,931
не женат / не замужем,2536,274


In [55]:
pivot_table_family_status['percent_1'] = pivot_table_family_status[1] / (pivot_table_family_status[1] + pivot_table_family_status[0]) * 100
display(pivot_table_family_status.head(10))

debt,0,1,percent_1
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в разводе,1110,85,7.112971
вдовец / вдова,896,63,6.569343
гражданский брак,3763,388,9.347145
женат / замужем,11408,931,7.545182
не женат / не замужем,2536,274,9.75089


**Вывод: можно сделать вывод, что зависимости между семейным положением и возвратом кредита в срок нет. Наибольший процент задолженнности наблюдается у людей в категории не 'женат /не замужем'. Однако, в сравнении с категорией 'женат/замужем', категория в 'разводе' и 'вдовец/вдова' имеют более низкий % задолженности.**

**3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [56]:
pivot_table_total_income = data.pivot_table(index='income_category', columns= 'debt', values='days_employed', aggfunc='count')
display(pivot_table_total_income.head(10))

debt,0,1
income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
высокий,7141,577
низкий,4109,354
средний,8463,810


In [57]:
pivot_table_total_income['percent_1'] = pivot_table_total_income[1] / (pivot_table_total_income[1] + pivot_table_total_income[0]) * 100
display(pivot_table_total_income.head(10))

debt,0,1,percent_1
income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
высокий,7141,577,7.47603
низкий,4109,354,7.931884
средний,8463,810,8.735037


**Вывод: можно сделать вывод, что зависимость между уровнем дохода и возвратом кредита в срок есть. Наибольший процент задолженнности в категории со средним доходом, а наименьший - с высоким.**

**4. Как разные цели кредита влияют на его возврат в срок?**

In [58]:
pivot_table_purpose = data.pivot_table(index='purpose_category', columns= 'debt', values='days_employed', aggfunc='count')
display(pivot_table_purpose.head(10))

debt,0,1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
автомобиль,3903,403
недвижимость,10029,782
образование,3643,370
свадьба,2138,186


In [59]:
pivot_table_purpose['percent_1'] = pivot_table_purpose[1] / (pivot_table_purpose[1] + pivot_table_purpose[0]) * 100
display(pivot_table_purpose.head(10))

debt,0,1,percent_1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3903,403,9.359034
недвижимость,10029,782,7.233373
образование,3643,370,9.220035
свадьба,2138,186,8.003442


**Вывод: можно сделать вывод, что разные цели кредита влияют на его возврат в срок. Наибольший процент задолженнности отмечается в категории с целью получения кредита - автомобиль, а наименьший - в категории недвижимость.**

## Этап 4. Общий вывод
**Наиболее платежеспособной является категория людей с семейным положением женат/замужем без детей с высоким доходом и с целью кредита - недвижимость.**