# Исследование надежности заемщиков.

На данных кредитного отдела банка о статистике платёжеспособности клиентов, мы разобремся, оказывает ли влияение семейное положение и количество детей клиента на факт погашения кредита в срок. 

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Цель исследования** — ответить на четыре вопроса:

1. Есть ли зависимость между количеством детей и возвратом кредита в срок?
2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
4. Как разные цели кредита влияют на его возврат в срок?

**Ход исследования**

Данные о статистике о платёжеспособности клиентов мы получим из файла `data.csv`. О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных.

Мы проверим данные на ошибки и оценим их влияние на исследование. Затем, на этапе предобработки мы поищем возможность исправить самые критичные ошибки данных.
 
Таким образом, исследование пройдёт в четыре этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Ответ на вопросы.
 4. Общий вывод.

## Обзор данных

In [211]:
import pandas as pd

In [212]:
df = pd.read_csv('/datasets/data.csv')


In [213]:
display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [214]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, в таблице двенадцать столбцов. Тип данных во всех столбцах — `object, int64, float64`.

Согласно документации к данным:

* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

**Выводы**

Предварительно можно утверждать, что, данных достаточно для проверки гипотез, но в столбцах `days_employed` и `total_income` встречаются пропуски в данных.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

### Шаг 2.1 Заполнение пропусков

Мы обнаружили пропущенные количественные переменные в столбцах `days_employed` и `total_income` в равном количестве. Вычислим какую долю составляют пропущенные значения в каждом из столбцов с пропусками:

In [215]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Доля пропущенных значений в столбцах `days_employed` и `total_income` велика, что может отрицательно повлиять на выводы исследования. По возможности необходимо связаться с заказчиком, чтобы свести пропуски в данных к минимуму.

In [216]:
missing_values = len(df[df['days_employed'].isna()]) / len(df)
print(f'{missing_values:.1%}')

10.1%


К возможным причин появления пропусков в данных стобцах можно отнести:
* отсутствие официального дохода и трудового стажа у клиента, которые можно подтвердить документально
* нежелание клиента указывать доход и трудовой стаж

Стоит отметить, что во всем датафрейме только три таблицы `days_employed`, `total_income` и `income_type` имеют прямое отношение к работе. Однако все `студенты` и `безработые` из таблицы `income_type` имеют данные о доходе и стаже, что исключает гипотезу о том, что пропуски в данных `days_employed`, `total_income` связаны с отсутствием работы у клиента.

In [217]:
df['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [218]:
df[df['income_type'] == 'студент']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
9410,0,-578.751554,22,высшее,0,Не женат / не замужем,4,M,студент,0,98201.625314,строительство собственной недвижимости


In [219]:
df[df['income_type'] == 'безработный']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3133,1,337524.466835,31,среднее,1,женат / замужем,0,M,безработный,1,59956.991984,покупка жилья для сдачи
14798,0,395302.838654,45,Высшее,0,гражданский брак,1,F,безработный,0,202722.511368,ремонт жилью


Числа в таблице `days_employed` имеют как положительные, так и отрицательные значения. Поскольку данные указывают на количество дней трудового стажа, то приведение их к единому положительному значению не появлияет на результаты исследования. Для этого возьмём модуль каждого значения с помощью функцию`abs()`.

In [220]:
employed_median = df['days_employed'].abs().median()

In [221]:
income_median = df['total_income'].median()

Заполним пропуски медианным значением - это будет лучшим решением для данных количественных переменных, поскольку это позволит отсеить аномально большие и малые значения, и как следствие получить более точный средний результат.

In [222]:
df['days_employed'] = df['days_employed'].fillna(employed_median)

In [223]:
df['total_income'] = df['total_income'].fillna(income_median)

Убедимся, что в таблице не осталось пропусков. Для этого ещё раз посчитаем пропущенные значения.

In [224]:
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Шаг 2.2 Проверка данных на аномалии и исправления.

В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Например, отрицательное количество дней трудового стажа в столбце `days_employed`. Обработаем значения в столбцах с аномалиями и опишем возможные причины появления таких данных.

In [225]:
df['days_employed'] = df['days_employed'].abs()
df['children'] = df['children'].abs()
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


### Шаг 2.3. Изменение типов данных.

Заменим вещественный тип данных в столбце `total_income` и `days_employed` на целочисленный с помощью метода `astype()`.

In [226]:
df['total_income'] = df['total_income'].astype('int')
df['days_employed'] = df['days_employed'].astype('int')
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


In [227]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Шаг 2.4. Удаление дубликатов.

Также обработаем неявные дубликаты. 

In [228]:
df.sort_values(by='education')['education'].unique()

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

Данные дубликаты были образованы в результате разного регистра при заполнении данных. Уберём дубликаты: с помощью метода `lower()` приведём данные к нижнем регистру.

In [229]:
df['education'] = df['education'].str.lower()

In [230]:
df.sort_values(by='education')['education'].unique()

array(['высшее', 'начальное', 'неоконченное высшее', 'среднее',
       'ученая степень'], dtype=object)

In [231]:
df.sort_values(by='family_status')['family_status'].unique()

array(['Не женат / не замужем', 'в разводе', 'вдовец / вдова',
       'гражданский брак', 'женат / замужем'], dtype=object)

Приведём `family_status` к единому регистру.

In [232]:
df['family_status'] = df['family_status'].str.lower()

В столбце `purpose` есть неявные дубликаты с подробной целью кредита, однако для более точной информации о сделке их менять мы не будем. Однако ниже мы распределим их по категориям.

In [233]:
df.sort_values(by='purpose')['purpose'].unique()

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

In [234]:
df.sort_values(by='purpose')['purpose'].unique()

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

Удалим строки-дубликаты. 

In [235]:
df.duplicated().sum()

71

In [236]:
df = df.drop_duplicates().reset_index(drop=True)

In [237]:
df.duplicated().sum()

0

In [238]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


Значение `XNA` в столбце `gender` могло появиться в результате того, что клиент не захотел указывать свой пол или по другим причинам. В рамках поставленной задачи это никак не повлияет на результат исследования, однако, если в дальнешем придётся работать с таблицей, то можно уточнить у сотрудников банка, что может означать абривиатура `NXA`.

In [239]:
df.sort_values(by='gender')['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [240]:
df.query('gender == "XNA"').head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10684,0,2358,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


Есть аномальный возраст 0. Очевидно, что здесь произошла ошибка при заполнении, возможно, клиент забыл указать свой возраст. Однако в рамках поставленной задачи, данная аномалия не искажает результаты исследования.

In [241]:
df.sort_values(by='dob_years')['dob_years'].unique()

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

In [242]:
df.query('dob_years == "0"').head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541,0,среднее,1,женат / замужем,0,F,пенсионер,0,71291,автомобиль
149,0,2664,0,среднее,1,в разводе,3,F,сотрудник,0,70176,операции с жильем
270,3,1872,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166,ремонт жилью
578,0,397856,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620,строительство собственной недвижимости
1040,0,1158,0,высшее,0,в разводе,3,F,компаньон,0,303994,свой автомобиль


Так же имеются аномально высокие значения около 1100 лет трудового стажа. В рамках поставленной задачи эти аномалии на результат исследования не влияют. Причиной возникновения может быть неправильный формат записи.

In [243]:
df.sort_values(by='days_employed')['days_employed'].unique()

array([    24,     30,     33, ..., 401675, 401715, 401755])

Данные о зарплате выглядят приемлемо.

In [244]:
df.sort_values(by='total_income')['total_income'].unique()

array([  20667,   21205,   21367, ..., 1726276, 2200852, 2265604])

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим два новых датафрейма со столбцами:
education_id и education — в первом;
family_status_id и family_status — во втором.
Удалим из исходного датафрейма столбцы education и family_status, оставив только их идентификаторы: education_id и family_status_id.

In [245]:
education_dict = df[['education_id', 'education']]
display(education_dict)

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее
...,...,...
21449,1,среднее
21450,1,среднее
21451,1,среднее
21452,1,среднее


In [246]:
family_status_dict = df[['family_status_id', 'family_status']]
display(family_status_dict)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак
...,...,...
21449,1,гражданский брак
21450,0,женат / замужем
21451,1,гражданский брак
21452,0,женат / замужем


In [247]:
df = df.drop(['education', 'family_status'], axis=1)
display(df)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...
21449,1,4529,43,1,1,F,компаньон,0,224791,операции с жильем
21450,0,343937,67,1,0,F,пенсионер,0,155999,сделка с автомобилем
21451,1,2113,38,1,1,M,сотрудник,1,89672,недвижимость
21452,3,3112,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля


In [248]:
education_dict.duplicated().sum()

21449

In [249]:
family_status_dict.duplicated().sum()

21449

In [250]:
education_dict = education_dict.drop_duplicates().reset_index(drop=True)

In [251]:
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)

In [252]:
education_dict.duplicated().sum()

0

In [253]:
family_status_dict.duplicated().sum()

0

### Шаг 2.6. Категоризация дохода.

На основании диапазонов, указанных ниже, создадим столбец total_income_category с категориями:
* 0–30000 — E
* 30001–50000 — D
* 50001–200000 — C
* 200001–1000000 — B
* 1000001 и выше — A

In [254]:
def total_income_category(income):
    if income < 30_000:
        return 'E'
    if 30_000 < income < 50_000:
        return 'D'
    if 50_000 < income < 200_000:
        return 'C'
    if 200_000 < income < 1_000_000:
        return 'B'
    if income > 1_000_000:
        return 'A'    
    
df['total_income_category'] = df['total_income'].apply(total_income_category)  

display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C


### Шаг 2.7. Категоризация целей кредита.

Создадим функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:
* операции с автомобилем
* операции с недвижимостью
* проведение свадьбы
* получение образования

In [255]:
def purpose_category(purpose):
    if 'авт' in purpose:
        return 'операции с автомобилем'
    if 'жиль' or 'недвиж' in purpose:
        return 'операции с недвижимостью'
    if 'адьб' in purpose:
        return 'проведение свадьбы'
    if 'образ' in purpose:
        return 'получение образования'
    
    
df['purpose_category'] = df['purpose'].apply(purpose_category)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,операции с недвижимостью
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,операции с недвижимостью


In [256]:
def purpose_category(purpose):
    if 'авт' in purpose:
        return 'операции с автомобилем'
    if 'жил' in purpose or 'движ' in purpose:
        return 'операции с недвижимостью'
    if 'адьб' in purpose:
        return 'проведение свадьбы'
    if 'образ' in purpose:
        return 'получение образования'
    
    
df['purpose_category'] = df['purpose'].apply(purpose_category)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

Посчитаем количество данных, приходящее на каждую группу людей с детьми.

In [260]:
children_debt_count = df.pivot_table(index=['children'], values='debt', aggfunc='count')
display(children_debt_count.sort_values(by='debt', ascending=False))

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,14091
1,4855
2,2052
3,330
20,76
4,41
5,9


Объективно сравнить можно только бездетные семьи и те, где не более двух детей, поскольку на другие семьи приходится слишком мало данных, что может сильно повлиять на точность полученого результата. Поэтом будем сравнить семьи до 2 детей.

In [261]:
filter_children = df[df['children'] < 3]

In [262]:
children_debt_mean = filter_children.pivot_table(index='children', values='debt', aggfunc='mean')
display(children_debt_mean.sort_values(by='debt'))

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.075438
1,0.091658
2,0.094542


##### Вывод 1:

Согласно полученным результатам видна обратная зависимость от количества детей и возвратом кредита в срок. Так, семьи где нет детей на 21.5% реже пропускают выплату кредита в срок, в отличие от семей с одним ребенком и на 25.5% в отличие от семей с двумя детьми.

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

Посчитаем количество данных, приходящее на каждую группу людей с различным семейным статусом.

In [265]:
family_status_debt_count = df.pivot_table(index=['family_status_id'], values='debt', aggfunc='count')
display(family_status_debt_count.sort_values(by='debt', ascending=False))

Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
0,12339
1,4151
4,2810
3,1195
2,959


Количество данных отличается, что может отразиться на точности результата, однако данных в каждой категории достаточно, чтобы делать по ним выводы.

In [266]:
family_status_debt_mean = df.pivot_table(index=['family_status_id'], values='debt', aggfunc='mean')
display(family_status_debt_mean.sort_values(by='debt'))

Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
2,0.065693
3,0.07113
0,0.075452
1,0.093471
4,0.097509


Число в таблице `family_status_id	` соответсвует следующим категориям семейного положения:
* 0 — женат/замужем
* 1 — гражданский брак
* 2 — вдова/вдовец
* 3 — в разводе
* 4 — не женат/не замужем

##### Вывод 2:

Между семейным положением и возвратом кредита в срок есть зависимость:

* На первом месте по выплатам в срок стоят люди из катеоргии 2 — вдова/вдовец.
* На втором месте по выплатам в срок стоят люди из катеоргии 3 — в разводе.
* На третьем месте по выплатам в срок стоят люди из катеоргии 0 — женат/замужем.
* На четвертом месте по выплатам в срок стоят люди из катеоргии 1 — гражданский брак.
* На пятом месте по выплатам в срок стоят люди из катеоргии 4 — не женат/не замужем.


Можно сделать заключение: семейные люди выплачивают кредит в срок чаще, чем люди которые не состоят в каких-либо отношениях.

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Посчитаем количество данных, приходящее на каждую группу людей с различным финансовым доходом.

In [267]:
total_income_category_debt_count = df.pivot_table(index=['total_income_category'], values='debt', aggfunc='count')
display(total_income_category_debt_count.sort_values(by='debt', ascending=False))

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
C,16016
B,5041
D,350
A,25
E,22


Объективно сравнить можно только категории C и B, поскольку на другие категории приходится слишком мало данных, что может сильно повлиять на точность полученого результата. Поэтом будем сравнить категории C и B.

In [268]:
filter_income = df[(df['total_income_category'] == 'B') | (df['total_income_category'] == 'C')]
   

In [269]:
total_income_category_debt_mean = filter_income.pivot_table(index=['total_income_category'], values='debt', aggfunc='mean')
display(total_income_category_debt_mean.sort_values(by='debt'))

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
B,0.070621
C,0.084915


##### Вывод 3:

Зависимость между уровнем дохода и возвратом кредита в срок есть:

Люди из категории B с более высоким достатком платят исправлнее, чем люди из соседней категории C на 20%.

##### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

Посчитаем количество данных, приходящее на каждую группу людей с различными целями.

In [270]:
purpose_category_debt_count = df.pivot_table(index=['purpose_category'], values='debt', aggfunc='count')
display(purpose_category_debt_count.sort_values(by='debt', ascending=False))

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с недвижимостью,10811
операции с автомобилем,4306
получение образования,4013
проведение свадьбы,2324


Количество данных в каждой категории отличаются, однако их достаточно, чтобы делать по ним выводы.

In [271]:
purpose_category_debt_mean = df.pivot_table(index=['purpose_category'], values='debt', aggfunc='mean')
display(purpose_category_debt_mean.sort_values(by='debt'))

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с недвижимостью,0.072334
проведение свадьбы,0.080034
получение образования,0.0922
операции с автомобилем,0.09359


#### Вывод 3:

Разные цели кредита влияют на его возврат в срок:

* На первом месте по исправности платежа — операции с недвижимостью.
* На втором месте по исправности платежа — проведение свадьбы.
* На третьем месте по исправности платежа — получение образования.
* На четвертом месте по исправности платежа — операции с автомобилем. 

## Общий вывод:

Мы ответили на четыре вопроса:

**1. Есть ли зависимость между количеством детей и возвратом кредита в срок?**

Согласно нашему исследованию мы установили обратную зависимость между количеством детей и уплатой кредита в срок.
Так, семьи где нет детей на 21.5% реже пропускают выплату кредита в срок, в отличие от семей с одним ребенком и на 25.5% в отличие от семей с двумя детьми.

**2. Есть ли зависимость между семейным положением и возвратом кредита в срок?**

Зависимость есть. Например, вдовы/вдовцы платят на 48.4% исправнее чем неженатые/незамужние.

* На первом месте по выплатам в срок стоят люди из катеоргии 2 — вдова/вдовец.
* На втором месте по выплатам в срок стоят люди из катеоргии 3 — в разводе.
* На третьем месте по выплатам в срок стоят люди из катеоргии 0 — женат/замужем.
* На четвертом месте по выплатам в срок стоят люди из катеоргии 1 — гражданский брак.
* На пятом месте по выплатам в срок стоят люди из катеоргии 4 — не женат/не замужем.

**3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

Зависимость между уровнем дохода и возвратом кредита в срок есть: люди из категории B с более высоким достатком платят исправлнее, чем люди из соседней нижней категории C на 20%.

**4. Как разные цели кредита влияют на его возврат в срок?**

Разные цели кредита влияют на его возврат в срок:

* На первом месте по исправности платежа — операции с недвижимостью.
* На втором месте по исправности платежа — проведение свадьбы.
* На третьем месте по исправности платежа — получение образования.
* На четвертом месте по исправности платежа — операции с автомобилем. 

Исходя из нашего исследования предпочтительным клиентом банка по возврату платежа является бездетный вдовец с достатком категории B, который покупает недвижимость.

Нежелательным клиентом является человек с двумя детьми, не женатый с достатком категории С, который покупает автомобиль.