# Исследование надежности заемщиков


**Цель исследования:**

Определить степень влияния таких параметров, как семейное положение и количество детей, на факт погашения кредитной задолженности клиентами банка.

**Исходные данные**: датасет банка со статистикой платежеспособности клиентов.

**Ход исследования:**

Исследование состоит из следующих этапов:
- изучение общей информации о данных
- осуществление предобработки данных
- исследовательский анализ данных
- подготовка заключительных выводов

## Изучение общей информации

In [1]:
#импортируем библиотеку
#считаем данные из csv-файла и сохраним в переменную
#исключаем ошибки при открытии
import pandas as pd

data = pd.read_csv('/Users/ekaterina/Desktop/Проект 2/data.csv')
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [2]:
#отключим предупреждения
import warnings
warnings.filterwarnings('ignore')

Изучим датасет подробнее

In [3]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Общий вывод:**

1. всего 21525 записей
2. некоторые столбцы имеют не соотвествующий их значениям тип данных:
    - ` total_income`: следует изменить с вещественного на целочисленный
3. некоторые столбцы имеют пропущенные значения:
    - `days_employed`: 2174 пропуска
    - `total_income`: 2174 пропуска

## Предобработка данных

### Определение пропущенных значений

In [5]:
#выведем количество пропущенных значений
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [6]:
#заполним пропуски в столбце `total_income` медианным значением по каждому типу занятости из столбца `income_type`
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [7]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,165225.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,98043.67
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,107798.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,142594.4
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,195549.9
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Видим аномальные значения в столбце `days_employed`: отрицательное количество дней трудового стажа. Заменим все отрицательные значения на положительные.

In [8]:
data['days_employed'] = data['days_employed'].abs()
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


### Определение пропущенных значений (продолжение)

In [9]:
#выведем медианное значение трудового стажа для каждого типа занятости
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. В связи с тем, что исправить такие значения довольно сложно, оставим их как есть. Тем более этот столбец не понадобится нам далее для исследования.

In [10]:
#выведем перечень уникальных значений столбца `children`
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

В столбце имеется два аномальных значения (-1 и 20). Удалим их.

In [11]:
data = data[(data['children'] != -1) & (data['children'] != 20)]
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [12]:
#убедимся, что артефакты удалены
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

In [13]:
#заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [14]:
#проверим отсутствие пропусков
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

#### Столбец `total_income`

In [15]:
#заменим вещественный тип на целочисленный в столбце `total_income`
data['total_income'] = data['total_income'].astype(int)
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


### Приведение к единому регистру

In [16]:
#приведем значения столбца `children` к единому нижнему регистру
data['education'] = data['education'].str.lower()
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


In [17]:
#выведем количество дубликатов в датасете
data.duplicated().sum()

71

In [18]:
#удалим дубликаты
data = data.drop_duplicates()
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


### Добавление данных

Создадим в датафрейме столбец `total_income_category` со следующими категориями:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


Используем  функцию с именем `categorize_income()` и метод `apply()`.

In [19]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [20]:
data['total_income_category'] = data['total_income'].apply(categorize_income)
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B


In [21]:
#выведем перечень уникальных целей взятия кредита из столбца `purpose`
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

Если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.

Используем функцию с именем `categorize_purpose()` и метод `apply()`.

In [22]:
#определили, какие подстроки помогут правильно определить категорию
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [23]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем


## Исследовательский анализ данных

### 3.1 Зависимость между количеством детей и возвратом кредита в срок

**Гипотеза:**

Теоретически можно было предположить, что **чем больше количество детей в семье, тем больше вероятность наличия задолженности по кредиту.**

* С одной стороны, родителям приходится жертвовать ежемесячной оплатой кредита в пользу незапланированных покупок ребенку (детям).


* С другой стороны, расходы на обеспечение ребенка можно рассчитать в семейном бюджете, выделить определенную сумму денег на непредвиденные расходы, учитывать ежемесячную оплату кредита. Значит родителям может быть не свойственно халатное отношение к задолженности вследствие рождения или воспитания ребенка (детей).

In [24]:
# составим сводную таблицу методом pivot_table, чтобы определить соотношение между количеством детей и наличием задолженности
# используем столбцы 'children' и 'debt' из датафрейма data 
# в качестве столбца группировки возьмем столбец 'children'; в качестве значений для группировки возьмем столбец 'debt'
# в качестве функций – 'count' (количество клиентов с X количеством детей), 'sum' (количество клиентов с X количеством детей и задолженностью), 'mean' (доля клиентов с задолженностью)
# сохраним полученные данные в новой переменной data_pivot
# представим долевое отношение в процентном виде (поделим sum на count и домножим на 100)

data_pivot = data.pivot_table(index='children', values='debt', aggfunc=['count', 'sum', 'mean'])
data_pivot ['%'] = data_pivot['sum'] / data_pivot['count']*100
data_pivot

Unnamed: 0_level_0,count,sum,mean,%
Unnamed: 0_level_1,debt,debt,debt,Unnamed: 4_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,14091,1063,0.075438,7.543822
1,4808,444,0.092346,9.234609
2,2052,194,0.094542,9.454191
3,330,27,0.081818,8.181818
4,41,4,0.097561,9.756098
5,9,0,0.0,0.0


**Результаты:**


1. **У клиентов без детей не самая низкая доля задолженности по кредиту** (7.5%), тогда как **у клиентов с одним, двумя и четырьмя детьми она на несколько единиц выше** (9.2%, 9.4%, 9.7% соответственно). 


2. **Клиенты с тремя детьми близки по результату к бездетным клиентам** (8.1% и 7.5% соответственно). 


3. О клиентах с пятью детьми дано недостаточно информации (9 записей). **На основе имеющейся информации можно сказать, что на настоящий момент среди этих клиентов не имеется должников** (0.0%). Однако это не означает, что подобных заемщиков с задолженностью нет априори и задолженность не свойственна данной категории. Необходимо более широкое представление данной категории в датасете для дальнейшего анализа.

**Клиентам с детьми свойственно пропускать оплату своего кредита и накапливать задолженность.** 

Однако различные процентные соотношения наводят на мысль о **государственной помощи семьям** (материнском капитале, льготах для многодетних семей (с 3-го ребенка), что облегчает ситуацию с выплатой кредита. Но вопрос, достаточен ли размер государственной помощи, также ставится под сомнение.

***

**Вывод:**

Таким образом, **зависимость между количеством детей и возвратом кредита в срок существует,** но не является единственным верным фактором при решении общей задачи. 

Наличие ребенка (детей) в семье не придает б**о**льшую ответственность клиентам. С увеличением количества детей, объем задолженностей растет.

У бездетных клиентов больше задолженность, но за счет своего численного превосходства она не является максимальной среди клиентов банка. 
Так как клиентов с детьми в два раза меньше, чем бездетных, кажется, что они имеют меньше долга, но на их меньшее количество доля задоженности оказывается больше.

### 3.2 Зависимость между семейным положением и возвратом кредита в срок

**Гипотеза:**

Можно предположить, что **клиенты, будучи сожителями (`гражданский брак`) или в гражданском браке (`женат / замужем`)
имеют наименьшую задолженность,** т.к. в их семейный бюджет вкладываются два человека, что увеличивает его объем и повышает шанс оплаты кредита в срок.

Тогда как **для клиентов, не состоящих в браке (`в разводе`, `вдовец / вдова`, `не женат / не замужем`), характерна задолженность** вследствие самостоятельного индивидуального получения дохода.

In [25]:
# составим сводную таблицу методом pivot_table, чтобы определить соотношение между семейным положением и наличием задолженности
# используем столбцы 'family_status' и 'debt' из датафрейма data 
# в качестве столбца группировки возьмем столбец 'family_status'; в качестве значений для группировки возьмем столбец 'debt'
# в качестве функций – 'count' (количество клиентов с X семейным положением), 'sum' (количество клиентов с X семейным положением и задолженностью), 'mean' (доля клиентов с задолженностью)
# сохраним полученные данные в новой переменной data_pivot
# представим долевое отношение в процентном виде

data_pivot = data.pivot_table(index='family_status', values='debt', aggfunc=['count', 'sum', 'mean'])
data_pivot ['%'] = data_pivot['sum'] / data_pivot['count']*100
data_pivot

Unnamed: 0_level_0,count,sum,mean,%
Unnamed: 0_level_1,debt,debt,debt,Unnamed: 4_level_1
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Не женат / не замужем,2796,273,0.097639,9.763948
в разводе,1189,84,0.070648,7.06476
вдовец / вдова,951,63,0.066246,6.624606
гражданский брак,4134,385,0.09313,9.313014
женат / замужем,12261,927,0.075606,7.560558


**Результаты:** 

1. **Наибольшей долей по задолженности характеризуются не женатые и не замужние клиенты (9.7%), а также клиенты, состоящие в так называемом гражданском браке (9.3%).**

    Казалось бы, совместный семейный бюджет должен способствовать своевременному погашению задолженности. Это подтверждается в случае с категориями `не женат / не замужем` (9.7%) и `женат / замужем` (7.5%), но опровергается категорией `гражданский брак` (9.3%).
    
    Можно предположить, что семейная жизнь требует дополнительных расходов (например, покупка подарков, обустройство совместной квартиры, покупка автомобиля и др.), которые ставят на второй план выплату кредита. 
    
    Или же при скором рождении ребенка семейные клиенты берут в долг и одновременно совершают покупки на собственно заработанные деньги, что лишает их средств для выплаты кредита.
    

2. **Для клиентов `в разводе` (7%) и клиентов в статусе `вдовец / вдова` (6.6%) характерно наличие меньшей задолженности по кредиту.**

    Клиенты, расставшиеся с супругом в ходе расторжения брака по собственным причинам или смерти супруга, по закону получают после данного процесса половину совместно нажитого имущества, а также вдовцу / вдове положены дополнительные государственные льготы.
    
***

**Вывод:**

С каждым новым шагом в совместной жизни клиенты сокращают свой банковский долг (9.7% в категории `не женат / не замужем` против 6.6% в категории `вдовец / вдова`).

Таким образом, **зависимость между семейным положением и возвратом кредита в срок четко прослеживается.** 

Однако категория клиентов, находящихся в гражданском браке, вносит сомнение в результаты. Если рассматривать сожительство как стадию до брака, то гипотеза подтверждается. Если же люди отдают предпочтение находиться в гражданском браке всю свою жизнь, то возникают неточности. Необходимо уточнение категории `гражданский брак`.

#### 3.3 Зависимость между уровнем дохода и возвратом кредита в срок

**Гипотеза:**
    
Самое первая и очевидная мысль, приходящая на ум, следующая: **чем больше доход у клиента, тем надежней его платежеспособность.**

Однако часто повышенный объем дохода ведет к расточительству, безответственному отношению к деньгам, 
приобретению большего количества товаров и услуг, в которых человек не нуждается, путем дополнительных кредитов в банке. 

В итоге, человек сталкивается с проблемой невозможности погашения долга.

In [26]:
# составим сводную таблицу методом pivot_table, чтобы определить соотношение между уровнем дохода и наличием задолженности
# используем столбцы 'total_income_category' и 'debt' из датафрейма data 
# в качестве столбца группировки возьмем столбец 'total_income_category'; в качестве значений для группировки возьмем столбец 'debt'
# в качестве функций – 'count' (количество клиентов с X уровнем дохода), 'sum' (количество клиентов с X уровнем дохода и задолженностью), 'mean' (доля клиентов с задолженностью)
# сохраним полученные данные в новой переменной data_pivot
# представим долевое отношение в процентном виде

data_pivot = data.pivot_table(index='total_income_category', values='debt', aggfunc=['count', 'sum', 'mean'])
data_pivot ['%'] = data_pivot['sum'] / data_pivot['count']*100
data_pivot

Unnamed: 0_level_0,count,sum,mean,%
Unnamed: 0_level_1,debt,debt,debt,Unnamed: 4_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,25,2,0.08,8.0
B,5014,354,0.070602,7.060231
C,15921,1353,0.084982,8.49821
D,349,21,0.060172,6.017192
E,22,2,0.090909,9.090909


**Результаты:**

1. **Самая высокая доля задолженности по кредиту имеется у двух крайних категорий клиентов: обеспеченных клиентов с категорией дохода `А` (1 млн у.е. и выше) (8%) и малоимущих клиентов с категорией дохода `Е` (от 0 до 30 тыс. у.е.) (9%).**

    Они реже всего оформляют кредит в сравнении с другими категориями клиентов, но наличие должников повышает общую долю задолженности категории.

    Возможно, для обеспеченных клиентов характерно расточительство и покупка дорогостоящих товаров / услуг на постоянной основе, что загоняет их в позицию должников. Или же клиенты могли совершить дорогостоящее приобретение, но не справиться с выплатой кредита из-за не зависящих от них причин (банкротство компании, ИП, сокращение штата сотрудников и др.).

    Предположительно малоимущие клиенты берут чаще кредиты для удовлетворения своих нужд, но, будучи не в состоянии их выплатить, попадают в долговую яму из нескольких кредитов в разных банках.


2. **Схожий пик по доле задолженности приходится на средний класс (клиентов с категорией дохода `C` (от 50 тыс. до 200 тыс. у.е.) (8.4%).** 

    Можно предположить, что данная категория клиентов может позволить себе дорогостоящие покупки, благодаря высокому доходу, но предпочитает перестраховаться, взяв кредит. Однако сокращение или потеря дохода (отметим высокий разброс в категории `C`) порождает задолженность.


3. **Клиенты с категориями дохода `B` (от 200 тыс. до 1 млн у.е.) (7%) и `D` (от 30 тыс. до 50 тыс. у.е.) (6%) имеют наименьший уровень задолженности.**

    Первая категория удовлетворила свои потребности как средний класс и имеет на руках необходимое имущество. 

    Последняя же с осторожностью берет кредиты, учитывая свой небольшой доход.
    
***


**Вывод:**

**Зависимость уровень дохода – возврат кредита в срок возможно проследить**, но полагаться на финансовую составляющую очень рискованно.

Изменение экономической ситуации в стране, финансовый кризис или другие внешние факторы могут за короткое время могут лишить стабильно низкого / среднего / высокого дохода клиента, сделая его не платежеспособным.

### 3.4 Влияние различных целей кредита на его возврат в срок

**Гипотеза:**
    
Здесь можно отталкиваться от **стоимости того, на что берется кредит.**

Например, в среднем покупка недвижимости или автомобиля обойдется дороже, чем получение образования или проведение свадьбы. Однако это субъективное предположение и может отличаться от города к городу, человека к человеку.

In [27]:
# составим сводную таблицу методом pivot_table, чтобы определить соотношение между целью кредита и наличием задолженности
# используем столбцы 'purpose_category' и 'debt' из датафрейма data 
# в качестве столбца группировки возьмем столбец 'purpose_category'; в качестве значений для группировки возьмем столбец 'debt'
# в качестве функций – 'count' (количество клиентов с X целью кредита), 'sum' (количество клиентов с X целью кредита и задолженностью), 'mean' (доля клиентов с задолженностью)
# сохраним полученные данные в новой переменной data_pivot
# представим долевое отношение в процентном виде

data_pivot = data.pivot_table(index='purpose_category', values='debt', aggfunc=['count', 'sum', 'mean'])
data_pivot ['%'] = data_pivot['sum'] / data_pivot['count']*100
data_pivot

Unnamed: 0_level_0,count,sum,mean,%
Unnamed: 0_level_1,debt,debt,debt,Unnamed: 4_level_1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
операции с автомобилем,4279,400,0.09348,9.347978
операции с недвижимостью,10751,780,0.072551,7.255139
получение образования,3988,369,0.092528,9.252758
проведение свадьбы,2313,183,0.079118,7.911803


**Результаты:** 

Как ни казалось с первого взгляда, данные опровергли гипотезу выше о трудностях с выплатой кредитов по операциям с автомобилем и недвижимостью.

Больше всего кредитов было взято клиентами по операциям с недвижимостью (780 человек из 10751), а также операциям с автомобилем (400 человек из 4279).

1. **`Операции с автомобилем` делят с категорией `получение образования` первое место по доли задолженности среди клиентов банка** (9.3% и 9.2%) соответственно. 

    Для покупки автомобиля чаще всего берется потребительский кредит с обычно высокими ставками, что замедляет выплату средств. **Автокредит** же с более низкими ставками ограничен небольшим выбором моделей автомобилей по программам государственного льготного автокредитования и требует минимательный взнос (10-30% стоимости автомобиля).

    Риск задолженности клиента при взятии кредита на получение образования связан с тем, что, возможно, человек находится в поисках новой профессии и, возможно, временно перешел на полставки, что сократило часть его дохода, ради того чтобы полностью посвятить себя учебе. Однако существуют **образовательные кредиты**, которые также помогают упростить тяжесть кредитного состояния.


2. Аналогично похожий результат имеется у других двух категорий – **`операции с недвижимостью` (7.2%) и `проведение свадьбы` (7.9%).** 

    В связи с тем, что приобретение недвижимости обычно происходит через специальный кредит – **ипотеку**, заемщик может выплачить удобные для себя суммы денег под небольшой процент в течение длительного периода.
    
    Организация свадебного мероприятия – торжество, на которое пара может отложить свои сбережения, а также дополнительно взять в долг. После события средств существования может остаться минимально, что может привести к задолженности. Также могут возникнуть дополнительные недпредвиденные расходы во время свадьбы или после нее.


**Вывод:**

Таким образом, **опираться на гипотетическую зависимость между разными целями кредита и его возвратом в срок не самое оптимальное решение.** Ее возможно вывести на основе собственных заключений и интепретаций, но чистые данные ее не подтверждают.

Существует множество вариаций кредитования, которые предлагают более благоприятные условия займа для различных нужд.

Более того, категории `операции с недвижимостью` и `операции с автомобилем` довольно широкие и требуют уточнения способов взаимодействия с данными товарами для более глубокого анализа.

Помимо этого, важно запросить дополнительную информацию у владельца данных о размерах кредитов, которые берутся в банке.

### 3.5 Возможные причины появления пропусков в исходных данных

В данном исследовании пропуски встретились в двух столбцах с количественными значениями: **`days_employed`** и **`total_income`**. 

Каждый столбец имеет по **2174 пропуска из 21525 тыс. записей**). Это практически **10%**, не маленький объем пропущенных данных.

Более того, если бы эту информацию не планировалась задействовать в анализе, то обработка пропусков могла бы быть отложена.

Однако и общий трудовой стаж (`days_employed`) в днях и ежемесячный доход (`total_income`) могут помочь исследованию в решении основной задачи: позволят ответить на вопрос, есть ли зависимость от уровня дохода или типа занятости на возврат кредита в срок.

- **Пропуски в общем трудовом стаже в днях** возможны по той причине, что человеку более удобна запись своего трудового стажа в годах (что также принято в трудовой книжке). Расчет в днях затруднителен и, возможно, в связи с этим клиент пропустил заполнение данной ячейки.

    Помимо этого, молодые люди, недавние студенты, могут не иметь трудового стажа вовсе или довольно скромный, поэтому предпочтут его не указывать.

    Кто-то может работать без оформления записи в трудовую книжку, что также вызывает вопрос, какой трудовой стаж указать. Чтобы избежать лишних трудностей, клиент может пропустить этот вопрос.


- **Пропуски в ежемесячном доходе** предположительно связаны с тем, что информация о заработной плате и финансовом достатке является довольно личной. 

    Люди, имеющие либо слишком низкий доход, либо вообще не имеющие дохода, либо слишком высокий, возможно, не хотели бы по личным причинам делиться данной информацией, что создало пропуски в данных.

Также отсутствие данных здесь можно связать с **типом занятости клиентов**. **Пенсионеры**, например, с низким доходом часто не оставляли информации в данной категории. Это относится и к **госслужащим**, которым, возможно, не разрешено разглашать свой доход работодателем. Однако пропуски встречают у самых различных клиентах, поэтому данный способ не является надежным.

Интересно, что **пропуски в обеих категориях "идут комплектом"**: у всех клиентов присутствует и тот, и тот пропуск в данных одновременно.

***

Таким образом, пропуски в данных категориях могут быть **1) совершенно случайно** (клиент забыл указать эти данные) или **2) неслучайно** (клиент предпочел по личным причинам оставить строку со стажем и доходом пустыми).

### 3.6 Причины заполнения пропущенных значений медианными

1. **Заполнение пропусков в количественных значениях нулевыми значениями или ~удаление / игнорирование пустых строк~** ведет в большинстве случаев к искажению общей картины данных, получению неверных результатов при проверке гипотез и нерелевантному выводу.
Пропуски могут быть заполнены таким образом  в случае, если было доказано (запрошена информация у владельцев датасета), что эти данные необязательны для решения поставленной задачи или же пропуски не совершенно случайны.


2. Более подходящим, однако также не идеальным способом, является **повторение результата последнего значения**. Это подойдет в тех случаях, когда последующие значения априори связаны с предыдущими.


3. Наиболее точным решением является **заполнение пропусков средним или медианным значением**. Предпочтение здесь отдается последнему способу, т.к. при наличии экстремальных данных он позволяет получить сбалансированный уровень. Среднее арифметическое значение же попадает под влияние пиковых данных и дает неверную интерпретацию всему расчету.

## Общий вывод

**Исследование надежности заемщиков для кредитного отдела банка успешно проведено.** 

Была решена следующая **задача:** влияние семейного положения и количества детей клиента на факт погашения кредита в срок.

**Использованные входные данные:** статистика о платёжеспособности клиентов.

Для решения задачи потребовалось рассмотреть зависимость как семейного положения и количества детей, так и уровня дохода и цели кредита на наличие задолженности.

1. Былы осуществлены **изучение общей информации** о предоставленных данных и их полноценная **обработка**:
    
    - обработаны пропуски (категории `days_employed`, `total_income`)
    - обработаны аномальные значения (категория `children`)
    - измененены типы данных (категория `total_income`)
    - обработаны дубликаты (категория `education`)
    - категоризированы данных (категория `total_income`, `purpose`)
    - приведены данные в единый стиль (категория `education`)
    

2. Были **выдвинуты гипотезы** в рамках решения поставленной задачи и **получены выводы** с помощью анализа данных:


- есть ли зависимость между количеством детей и возвратом кредита в срок?
    
    **первоначальная гипотеза:** чем больше количество детей в семье, тем больше вероятность наличия задолженности.
   
- есть ли зависимость между семейным положением и возвратом кредита в срок?
    
    **первоначальная гипотеза:** чем прочнее отношения между людьми, тем меньше вероятность задолженности.
    
- есть ли зависимость между уровнем дохода и возвратом кредита в срок?
    
    **первоначальная гипотеза:** чем больше доход у клиента, тем надежней его платежеспособность.
    
- как разные цели кредита влияют на его возврат в срок?
    
    **первоначальная гипотеза:** чем дороже покупка, тем выше вероятность задолженности.

***

**Общие выводы:**

1. **Семейное положение действительно имеет положительную корреляцию с фактом погашения кредита в срок.**

*Первоначальная гипотеза подтверждена.*

* **Наибольшей долей по задолженности характеризуются:**
    - не женатые и не замужние клиенты (9.7%)
    - клиенты, состоящие  гражданском браке (9.3%).
    

* **Среднюю долю задолженности имеют:**
 
    - клиенты, состоящие в официальном браке (7.5%)


* **Наименьшей задолженности по кредиту характерно для:**

    - клиентов `в разводе` (7%)
    - клиентов в статусе `вдовец / вдова` (6.6%).
   
*Рекомендации:*

- подготовить разбивки по объему взятых кредитов, которые далее можно привести к другим категориям из датафрейма.

- подготовить характеристики для каждого семейного статуса.

**Таким образом,** чем серьезней намерения двух людей о своей дальнейшей совместной жизни, тем больше клиенты прибегают к взятию дополнительных средств в кредит и тем меньше задолженности они имеют.

***

2. **Количество детей влияет также накладывает свой негативный отпечаток на факт погашения кредита в срок.** 

*Первоначальная гипотеза подтверждена.*

* **Клиенты без детей имеют наименьший уровень задолженности**, исходя из своего численного превосходства (7.5%).


* **Клиенты с одним, двумя и четырьмя детьми имеют наивысший уровень задолженности** (9.2%, 9.4%, 9.7% соответственно). 


* **Клиенты с тремя детьми имеют средний уровень задолженности** (8.1%)

    
* **О клиентах с пятью детьми дано недостаточно информации** (9 записей, 0.0%).


**Таким образом,** чем больше детей в семье, тем большей становится задолженность по кредиту. Однако предполагающаяся государственная помощь семья с детьми и многодетыным семьям вносит сво коррективы в данные.

*Рекомендации:*

- расширить информацию о клиентах с пятью детьми.

- проанализировать влияние государственной помощи семьям с детьям и многодетным семьям.
*** 

**Дополнительные выводы:**

3. **Зависимость уровень дохода – возврат кредита в срок возможно проследить**. 

*Первоначальная гипотеза не подтверждена.*

* **Самая высокая доля задолженности по кредиту имеется у двух крайних категорий клиентов:** обеспеченных клиентов с категорией дохода `А` (1 млн у.е. и выше) (8%) и малоимущих клиентов с категорией дохода `Е` (от 0 до 30 тыс. у.е.) (9%).


* **Схожий пик по доле задолженности приходится на средний класс** (клиентов с категорией дохода `C` (от 50 тыс. до 200 тыс. у.е.) (8.4%).


* **Клиенты с категориями дохода `B` (от 200 тыс. до 1 млн у.е.) (7%) и `D` (от 30 тыс. до 50 тыс. у.е.) (6%) имеют наименьший уровень задолженности.**


**Таким образом,** полагаться на финансовую составляющую рискованно в связи с регулярными экономическими изменения внутри страны и в мире.
***

4. **Опираться на гипотетическую зависимость между разными целями кредита и его возвратом в срок не оптимальное решение.**

*Первоначальная гипотеза не подтверждена.*

* **`Операции с автомобилем` делят с категорией `получение образования` первое место по доли задолженности среди клиентов банка** (9.3% и 9.2%) соответственно. 


* Аналогично похожий результат имеется у других двух категорий – **`операции с недвижимостью` (7.2%) и `проведение свадьбы` (7.9%).** 

**Таким образом,** зависимость между данными категориями возможно вывести на основе собственных заключений, но чистые данные ее не подтверждают.

***

**Заключение:**

Полученные результаты исследования могут послужить опорой при **построении модели кредитного скоринга** для оценки способности потенциального заемщика вернуть кредит банку.

При анализе каждого из поставленных факторов были **получены данные, на которые можно опираться в других исследованиях.** 

***

**Общие рекомендации:**

- в категории `days_employed` содержатся аномальные значения, которые не были устранены в данном исследовании в связи с неиспользованием этих данных, но требующие обработки при проведении других исследований.

- желательно подготовить разбивку по объему взятых кредитов, которые далее можно привести к другим категориям из датафрейма.

- желательно иметь характеристику каждого семейного статуса, цели кредита, а также дополнительной информации о стране нахождения банка, ее валюте.

- желательно провести анализ пропусков в данных в категориях общий трудовой стаж в днях и ежемесячный доход, а также при наличии информации указывать причну пропуска рядом с конкретными данными.

- желательно предложить сотрудникам разработать гайдбук с принципами единого стиля оформления датасета для избежания возможных ошибок в данных.