# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Информация о данных:
    
<li>children — количество детей в семье</li>
<li>days_employed — общий трудовой стаж в днях</li>
<li>dob_years — возраст клиента в годах</li>
<li>education — уровень образования клиента</li>
<li>education_id — идентификатор уровня образования</li>
<li>family_status — семейное положение</li>
<li>family_status_id — идентификатор семейного положения</li>
<li>gender — пол клиента</li>
<li>income_type — тип занятости</li>
<li>debt — имел ли задолженность по возврату кредитов</li>
<li>total_income — ежемесячный доход</li>
<li>purpose — цель получения кредита</li>

## Шаг 1. Откройте файл с данными и изучите общую информацию

In [2]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
display(data)
display(data.head(15))
data.info()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод**

<li>В столбце <b>'days_employed'</b> присутсвуют отрицательные значения и пропуски</li>
<li>В столбце <b>'education'</b> присутствуют значения в разных регистрах</li>
<li>В столбце <b>'total_income'</b> присутствуют пропуски</li>
<li>В столбце <b>'purpose'</b> одна и та же цель записана по разному</li>

## Шаг 2. Предобработка данных

### Обработка пропусков

In [3]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


In [4]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

In [5]:
data = data[data['children'] != -1]
data = data[data['children'] != 20]
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21402.0,19240.0,21402.0,21402.0,21402.0,21402.0,19240.0
mean,0.47318,63159.820777,43.300206,0.81712,0.973133,0.080927,167448.8
std,0.751837,140928.943329,12.579055,0.548741,1.420536,0.272729,103105.1
min,0.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.235601,33.0,1.0,0.0,0.0,103000.1
50%,0.0,-1203.934202,42.0,1.0,0.0,0.0,145020.8
75%,1.0,-289.740178,53.0,1.0,1.0,0.0,203444.7
max,5.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


In [6]:
data.isna().sum()

children               0
days_employed       2162
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2162
purpose                0
dtype: int64

In [7]:
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [8]:
#Замена значений для пенсионеров
retiree_median = data[data['income_type'] == 'пенсионер']['total_income'].median()
data.loc[data['income_type'] == 'пенсионер', 'total_income'] = data.loc[data['income_type'] == 'пенсионер', 'total_income'].fillna(retiree_median)

In [9]:
#Замена значений для сотрудников
retiree_median = data[data['income_type'] == 'сотрудник']['total_income'].median()
data.loc[data['income_type'] == 'сотрудник', 'total_income'] = data.loc[data['income_type'] == 'сотрудник', 'total_income'].fillna(retiree_median)

In [10]:
#Замена значений для компаньонов
retiree_median = data[data['income_type'] == 'компаньон']['total_income'].median()
data.loc[data['income_type'] == 'компаньон', 'total_income'] = data.loc[data['income_type'] == 'компаньон', 'total_income'].fillna(retiree_median)

In [11]:
#Замена значений для госслужащих
retiree_median = data[data['income_type'] == 'госслужащий']['total_income'].median()
data.loc[data['income_type'] == 'госслужащий', 'total_income'] = data.loc[data['income_type'] == 'госслужащий', 'total_income'].fillna(retiree_median)

In [12]:
#Замена значений для безработных
retiree_median = data[data['income_type'] == 'безработный']['total_income'].median()
data.loc[data['income_type'] == 'безработный', 'total_income'] = data.loc[data['income_type'] == 'безработный', 'total_income'].fillna(retiree_median)

In [13]:
#Замена значений для предпринимателей
retiree_median = data[data['income_type'] == 'предприниматель']['total_income'].median()
data.loc[data['income_type'] == 'предприниматель', 'total_income'] = data.loc[data['income_type'] == 'предприниматель', 'total_income'].fillna(retiree_median)

In [14]:
#Замена значений для студентов
retiree_median = data[data['income_type'] == 'студент']['total_income'].median()
data.loc[data['income_type'] == 'студент', 'total_income'] = data.loc[data['income_type'] == 'студент', 'total_income'].fillna(retiree_median)

In [15]:
#Замена значений для тех, кто в декрете
retiree_median = data[data['income_type'] == 'в декрете']['total_income'].median()
data.loc[data['income_type'] == 'в декрете', 'total_income'] = data.loc[data['income_type'] == 'в декрете', 'total_income'].fillna(retiree_median)

In [16]:
data.isna().sum()

children               0
days_employed       2162
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

In [17]:
data = data[data['dob_years'] != 0]
data['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

In [18]:
labels_age = ['до 33 лет', 'до 47 лет', 'до 61 года', 'от 61 года']
data['age_level'] = pd.qcut(data['dob_years'], q=4, labels=labels_age)
display(data.head(15))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_level
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,до 47 лет
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,до 47 лет
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,до 33 лет
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,до 33 лет
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,до 61 года
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,до 33 лет
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,до 47 лет
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,до 61 года
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,до 47 лет
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,до 47 лет


In [19]:
#Замена значений для людей до 33 лет
retiree_median = data[data['age_level'] == 'до 33 лет']['days_employed'].median()
data.loc[data['age_level'] == 'до 33 лет', 'days_employed'] = data.loc[data['age_level'] == 'до 33 лет', 'days_employed'].fillna(retiree_median)

In [20]:
#Замена значений для людей до 47 лет
retiree_median = data[data['age_level'] == 'до 47 лет']['days_employed'].median()
data.loc[data['age_level'] == 'до 47 лет', 'days_employed'] = data.loc[data['age_level'] == 'до 47 лет', 'days_employed'].fillna(retiree_median)

In [21]:
#Замена значений для людей до 61 года
retiree_median = data[data['age_level'] == 'до 61 года']['days_employed'].median()
data.loc[data['age_level'] == 'до 61 года', 'days_employed'] = data.loc[data['age_level'] == 'до 61 года', 'days_employed'].fillna(retiree_median)

In [22]:
#Замена значений для людей от 61 года
retiree_median = data[data['age_level'] == 'от 61 года']['days_employed'].median()
data.loc[data['age_level'] == 'от 61 года', 'days_employed'] = data.loc[data['age_level'] == 'от 61 года', 'days_employed'].fillna(retiree_median)

In [23]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_level           0
dtype: int64

**Вывод**

Были обнаружены пропуски в колонках 'days_employed' и 'total_income'. Пропуски могли появиться по причине утери данных при переносе таблицы или же не были указаны. Пропуски были заполнены с помощью группировки данных, а именно 'dob_years' был заполнен с группировкой по возрасту. А 'total_income' с группировкой по 'income_type'

### Замена типа данных

In [24]:
data['days_employed'] = data['days_employed'].astype('int')
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_level
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,до 47 лет
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,до 47 лет
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,до 33 лет
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,до 33 лет
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,до 61 года


In [25]:
data['total_income'] = data['total_income'].astype('int')
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_level
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,до 47 лет
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,до 47 лет
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,до 33 лет
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,до 33 лет
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,до 61 года


**Вывод**

Данные в стобцах 'days_employed' и 'total_income' были заменены с вещественного типа данных на целочисленный. Для такого перевода подходит только метод .astype(), потому что может переводить float в int.

### Обработка дубликатов

In [26]:
data['education'].str.lower()
data.duplicated().sum()

54

In [27]:
data = data.drop_duplicates()
data.duplicated().sum()

0

**Вывод**

Для поиска дубликатов был использован метод .duplicated() в сочетании с методом .sum(). Так мы нашли количество явных дубликатов. После чего был использован метод .drop_duplicates() для удаления дубликатов. Скорее всего, появление дубликатов связано с переносом таблицы, из-за чего некоторые данные копировались.

### Лемматизация

In [28]:
from pymystem3 import Mystem
m = Mystem()
data['education'] = data['education'].str.lower()

In [29]:
def change_category(row):
    l = m.lemmatize(row)
    if 'недвижимость' in l or 'жилье' in l:
        return 'недвижимость'
    if 'свадьба' in l:
        return 'свадьба'
    if 'образование' in l:
        return 'образование'
    if 'автомобиль' in l:
        return 'автомобиль'

In [30]:
data['purpose'] = data['purpose'].apply(change_category)

In [31]:
display(data.head(20))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_level
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость,до 47 лет
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль,до 47 лет
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость,до 33 лет
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование,до 33 лет
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба,до 61 года
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,недвижимость,до 33 лет
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,недвижимость,до 47 лет
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,до 61 года
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,свадьба,до 47 лет
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,недвижимость,до 47 лет


**Вывод**

Для лемматизации данных сначала была подключена библиотека pymystem3. После чего была написана функция перебора значений, которая возвращала подходящее значение цели кредита. После чего мы присвоили столбцу со старыми значениями, новый. Ключевые слова я решил выбрать "Автомобиль", "Недвижимость или жилье", "Свадьба", "Образование".

### Категоризация данных

In [32]:
labels = ['низкий', 'средний', 'высокий', 'очень высокий']
data['earning_level'] = pd.qcut(data['total_income'], q=4, labels=labels)
display(data.head(35))
#P.S. Применил метод qcut

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_level,earning_level
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость,до 47 лет,очень высокий
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль,до 47 лет,средний
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость,до 33 лет,высокий
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование,до 33 лет,очень высокий
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба,до 61 года,высокий
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,недвижимость,до 33 лет,очень высокий
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,недвижимость,до 47 лет,очень высокий
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,до 61 года,средний
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,свадьба,до 47 лет,низкий
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,недвижимость,до 47 лет,высокий


In [33]:
education_dict = data[['education', 'education_id']]
education_dict = education_dict.drop_duplicates().reset_index(drop=True)
data.groupby('education').sum()

Unnamed: 0_level_0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
высшее,2698,209604649,212638,0,5314,277,1048158153
начальное,136,36777082,13449,846,314,31,37387742
неоконченное высшее,341,14953379,25668,1478,1050,68,131919896
среднее,6885,1127774551,672004,15028,13989,1348,2295135574
ученая степень,4,699780,307,24,7,0,1048499


In [34]:
education_dict

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [35]:
family_dict = data[['family_status_id', 'family_status']]
family_dict = family_dict.drop_duplicates().reset_index(drop=True)
data.groupby('family_status').sum()

Unnamed: 0_level_0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Не женат / не замужем,627,125011513,107277,2250,11120,272,463172091
в разводе,506,79642263,54173,943,3537,84,198143758
вдовец / вдова,139,196984528,53733,888,1892,62,135002596
гражданский брак,1882,236322336,174572,3454,4125,383,679784491
женат / замужем,6910,751848801,534311,9841,0,923,2037546928


In [36]:
family_dict

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


**Вывод**

Для категоризации данных я выбрал столбец с доходами так как без какой либо группировки по доходам будет невозможно ответить на вопрос "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?". Группировать я решил по уровню дохода:
<ul>
    <li>низкий</li>
    <li>средний</li>
    <li>высокий</li>
    <li>очень высокий</li>
</ul>

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [37]:
children = data.groupby(['children'])['debt'].agg(['sum', 'count']).reset_index()
children['percentage'] = children['sum'] / children['count']
display(children.sort_values(by = 'percentage', ascending = False))

Unnamed: 0,children,sum,count,percentage
4,4,4,41,0.097561
2,2,194,2039,0.095145
1,1,441,4793,0.092009
3,3,27,328,0.082317
0,0,1058,14038,0.075367
5,5,0,9,0.0


**Вывод**

Нет большой зависимости между наличием детей и возвратом в срок. Так как разница между 0, 1, 2, 3, 4 детьми в семье прблизительно равна, и она не растет и не падает в зависимости количества детей.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [38]:
family_status = data.groupby(['family_status'])['debt'].agg(['sum', 'count']).reset_index()
family_status['percentage'] = family_status['sum'] / family_status['count']
pd.pivot_table(family_status, index='family_status', values='percentage')
family_status

Unnamed: 0,family_status,sum,count,percentage
0,Не женат / не замужем,272,2780,0.097842
1,в разводе,84,1179,0.071247
2,вдовец / вдова,62,946,0.065539
3,гражданский брак,383,4125,0.092848
4,женат / замужем,923,12218,0.075544


In [39]:
age_status = data.groupby(['dob_years'])['debt'].agg(['sum', 'count']).reset_index()
age_status['percentage'] = age_status['sum'] / age_status['count']
pd.pivot_table(age_status, index='dob_years', values='percentage')

Unnamed: 0_level_0,percentage
dob_years,Unnamed: 1_level_1
19,0.071429
20,0.078431
21,0.127273
22,0.136612
23,0.079681
24,0.091255
25,0.120787
26,0.115764
27,0.1
28,0.113772


**Вывод**

Здесь есть зависимость между семейным положением и возвратом кредита в срок. Но она не однозначная и, мне кажется, больше связана с взрослением человека и более осознанным подходом к взятию кредита. Но тем не менее, люди, состоящие в гражданском браке или же не женатые/не замужем имеют большую вероятность не вернуть кредит в срок, чем вдовец/вдова.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [40]:
total_income = data.groupby(['earning_level'])['debt'].agg(['sum', 'count']).reset_index()
total_income['percentage'] = total_income['sum'] / total_income['count']
pd.pivot_table(total_income, index='earning_level', values='percentage')

Unnamed: 0_level_0,percentage
earning_level,Unnamed: 1_level_1
низкий,0.080008
средний,0.087981
высокий,0.084955
очень высокий,0.071536


**Вывод**

Здесь есть зависимость между уровнем дохода и возвратом кредита в срок. Люди, имеющие заработок до 500 тыс. имеют большую вероятность не вернуть кредит в срок, чем люди имеющие доход более 500 тыс.

- Как разные цели кредита влияют на его возврат в срок?

In [41]:
purpose = data.groupby(['purpose'])['debt'].agg(['sum', 'count']).reset_index()
purpose['percentage'] = purpose['sum'] / purpose['count']
pd.pivot_table(purpose, index='purpose', values='percentage')

Unnamed: 0_level_0,percentage
purpose,Unnamed: 1_level_1
автомобиль,0.093192
недвижимость,0.072569
образование,0.092924
свадьба,0.078355


**Вывод**

Кредит на автомобиль или образование имеют примерно равную вероятность не вернуть в срок и она существенно больше, чем кредит на свадьбу или недвижимость.

## Шаг 4. Общий вывод

Все таки не все гипотезы подтвердились и есть данные, которые никак не влияют на возврат кредита в срок. Такие как количество детей в семье. Но все же большинство из них были правдивы. Так же мы выяснили, что возраст тоже имеет значение при анализе. Чем человек взрослее, тем больше вероятность, что он вернет его в срок. С этим близко связано семейное положение. Женатый человек или уже вдовец/вдова имеют большую вероятность вернуть кредит вовремя, чем человек, не состоящий в браке, или находящийся в гражданоском браке. Так же более богатый человек имеет больший шанс вернуть кредит вовремя. Кредит на автомобиль или образование имеет более высокий шанс не вернуть в срок, чем свадьба или недвижимость. Из всего этого мы можем сделать вывод, что по данным человека можно понять, какова вероятность, что он вернет кредит в срок.