# Исследование надежности заемщиков - анализ банковских данных

## Описание проекта
На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок

## Описание данных
* **children** — количество детей в семье
* **days_employed** — общий трудовой стаж в днях
* **dob_years** — возраст клиента в годах
* **education** — уровень образования клиента
* **education_id** — идентификатор уровня образования
* **family_status** — семейное положение
* **family_status_id** — идентификатор семейного положения
* **gender** — пол клиента
* **income_type** — тип занятости
* **debt** — имел ли задолженность по возврату кредитов
* **total_income** — ежемесячный доход
* **purpose** — цель получения кредита

## Шаг 1. Обзор данных

In [None]:
import pandas as pd
bank = pd.read_csv('/datasets/data.csv')
# импорт библиотеки pandas , чтение файла 

In [None]:
bank.info()
# получение общей информации 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [None]:
bank.head(10)
# вывод первых 10 строк на экран

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


 **Выводы:**
 1. В столбцах **days_employed** и **total_income** есть пропущенные значения и их количество одинаково.
 2. В столбце **days_emploted** присутствуют аномалии.
 3. В столбце **education** есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв.

## Шаг 2. Предобработка данных

### Шаг 2.1 Обработка пропусков

In [None]:
bank.isna().sum()
# количество пропущенных значений в таблице

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [None]:
bank.isna().sum()*100/len(bank)
# доля пропущенных значений в каждом стоолбце в процентах

children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

In [None]:
bank.loc[bank['days_employed'].isna()].head()
# вывод пропущенных значений в столбце days_employed

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


In [None]:
bank.loc[bank['total_income'].isna()].head()
# вывод пропущенных значений в столбце total_income

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


**Выводы:**
 * Пропуски в столбцах **days_employed** и **total_income** имеют стандартное значение типа NaN и встречаются в одинаковых строках.
 
 * Доля пропущенных значений в столбцах **days_employed** и **total_income** составляет 10%. 
 * Данные пропущены не случайно, либо ошибка в выгрузке данных, либо они были не указаны при заполнении завки клиентом. 
 

### Шаг 2.1 Заполнение пропусков

In [None]:
days_employed_median = bank['days_employed'].median()
total_income_median = bank['total_income'].median()
# расчет медианы для двух столбцов 

In [None]:
days_employed_median
# вывод медианы на экран

-1203.369528770489

После вывода на экран медианы, видим, что ответ отрицательный, поэтому прежде чем заполнить пропуски, нужно обработать данные в столбце **days_employed**

In [None]:
bank['days_employed'] = bank['days_employed'].abs()
bank['days_employed'].describe()
# применение функции abs() для возврата абсолютного значения чисел
# проверка результата

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

Данные обработаны. Скорее всего такие ошибки связаны неправильным извлечением данных. Проверим медиану

In [None]:
days_employed_median = bank['days_employed'].median()
days_employed_median
# расчет медианы и вывод на экран

2194.220566878695

In [None]:
total_income_median
# вывод медианы на экран

145017.93753253992

Медианы выведены и проверены, заполняем данные столбцов **days_employed** и **total_income**.

In [None]:
bank['days_employed'] = bank['days_employed'].fillna(days_employed_median)
bank['total_income'] = bank['total_income'].fillna(total_income_median)
# заполнение пропусков для каждого столбца медианным значением

In [None]:
bank.info()
# проверка результата

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод:** Пропуски заполнили медианным значением, так как среднее значение некорректно характеризует данные, когда некоторые значения сильно выделяются среди большинства. 


### Шаг 2.2 Проверка данных на аномалии и исправления.

In [None]:
bank.describe()
# проверка величин в таблице 

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.538908,60378.032733,43.29338,0.817236,0.972544,0.080883,165159.5
std,1.381587,133257.558514,12.574584,0.548138,1.420324,0.272661,97866.07
min,-1.0,24.141633,0.0,0.0,0.0,0.0,20667.26
25%,0.0,1025.608174,33.0,1.0,0.0,0.0,107798.2
50%,0.0,2194.220567,42.0,1.0,0.0,0.0,145017.9
75%,1.0,4779.587738,53.0,1.0,1.0,0.0,195543.6
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Из таблицы видно, что аномальные значения присутствуют в столбцах **children**, **days_employed**.

Обработаем данные в столбце **children:**

In [None]:
bank['children'].value_counts()
# количество уникальных значений столбца children

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Количество строк со значением -1 равно 47, возможно это ошибка произошла при автоматической выгрузке, поэтому можно привести данные в правильную форму.

In [None]:
bank['children'] = bank['children'].replace(-1, 1)
bank['children'].value_counts()
# замена всех значений "-1" на "1" 
# проверка изменений

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64

Что касается строк с количеством детей 20, а их у нас в таблице 76, произведем замену на 2. Предполагаю, что это ошибка в вводе данных, случайно поставили 0.

In [None]:
bank['children'].replace(20, 2, inplace=True)
bank['children'].value_counts()
# замена всех значений "20" на "2" 
# проверка изменений

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Данные обработаны.

Проверим данные в столбце **days_employed:**

In [None]:
bank['days_employed'].describe()
# проверим информацию

count     21525.000000
mean      60378.032733
std      133257.558514
min          24.141633
25%        1025.608174
50%        2194.220567
75%        4779.587738
max      401755.400475
Name: days_employed, dtype: float64

При заполнении пропусков мы исправили аномальные значения столбца, а именно отрицательные числа. Но есть еще одна аномалия : максимальное количество трудового стажа 401755 дней. Довольно странно, скорее всего ошибка в выгрузке данных. Так как данный столбец не используется при ответе на главные вопросы, оставим его без изменений.

Проверим данные в столбце **gender**:

In [None]:
bank['gender'].unique()
# уникальные значения столбца gender

array(['F', 'M', 'XNA'], dtype=object)

In [None]:
bank['gender'].value_counts()
# количество уникальных значений в столбце gender

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Нашлась 1 строка со значением пола - 'XNA' - скорее всего пропуск, но так как мы не знаем пол человека и не можем сделать предположений из данных, а также в расчетах использовать значение не будем, то оставляем его как есть

Проверим данные в столбце **dob_years**:

In [None]:
bank['dob_years'].describe()
# проверка величин в столбце dob_years

count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

Аномальным значением является минимальный возраст заемщика, это 0, такого явно быть не может, возможна опечатка. Так же в 75 лет мало людей берут кредиты, а в некоторых банках максимальный возраст заемщика 65-70 лет. Опять же возможна плохая выгрузка данных. Данный столбец не влияет на дальнейшее исследование.

### Шаг 2.3. Изменение типов данных.

In [None]:
bank['total_income'] = bank['total_income'].astype(int)
bank['days_employed'] = bank['days_employed'].astype(int)
bank.dtypes
# замена вещественного типа данных в столбце total_income на целочисленный
# замена вещественного типа данных в столбце days_employed на целочисленный
# просмотр результата

children             int64
days_employed        int64
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int64
purpose             object
dtype: object

Теперь все данные с числами переведены в целый тип.

### Шаг 2.4. Удаление дубликатов.

In [None]:
bank['education'].value_counts()
# подсчет значений

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64

In [None]:
bank['education'] = bank['education'].str.lower()
bank['education'].value_counts()
# перевод в нижний регистр столбца education
# вывод для проверки

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

In [None]:
bank.duplicated().sum()
# общее количество дубликатов

71

In [None]:
bank[bank.duplicated(keep=False)].sort_values(by=['total_income', 'days_employed'])
# вывод на экран для просмотра

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
120,0,2194,46,среднее,1,женат / замужем,0,F,сотрудник,0,145017,высшее образование
520,0,2194,35,среднее,1,гражданский брак,1,F,сотрудник,0,145017,сыграть свадьбу
541,0,2194,57,среднее,1,женат / замужем,0,F,сотрудник,0,145017,сделка с подержанным автомобилем
554,0,2194,60,среднее,1,женат / замужем,0,M,сотрудник,0,145017,покупка недвижимости
680,1,2194,30,высшее,0,женат / замужем,0,F,госслужащий,0,145017,покупка жилья для семьи
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,2194,64,среднее,1,женат / замужем,0,F,пенсионер,0,145017,дополнительное образование
21032,0,2194,60,среднее,1,женат / замужем,0,F,пенсионер,0,145017,заняться образованием
21132,0,2194,47,среднее,1,женат / замужем,0,F,сотрудник,0,145017,ремонт жилью
21281,1,2194,30,высшее,0,женат / замужем,0,F,сотрудник,0,145017,покупка коммерческой недвижимости


И правда выглядят как дубликаты. Возможная причина появления дубликатов это задвоение данных или ошибочное создание дублей.

In [None]:
bank = bank.drop_duplicates().reset_index(drop=True)
# удаление дубликатов

In [None]:
bank.duplicated().sum()
# проверка

0

Дубликаты удалены. Использовали метод value_counts() для ознакомления со всеми значениями столбца **education**, привели их к одному регистру, а после удалили полные дубликаты используя метод drop_duplicates().

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [None]:
bank[['education_id', 'education']]
# создание словаря

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее
...,...,...
21449,1,среднее
21450,1,среднее
21451,1,среднее
21452,1,среднее


In [None]:
bank[['education_id', 'education']].drop_duplicates().reset_index(drop=True)
# удаление дубликатов

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [None]:
bank[['family_status_id', 'family_status']]
# создание словаря

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак
...,...,...
21449,1,гражданский брак
21450,0,женат / замужем
21451,1,гражданский брак
21452,0,женат / замужем


In [None]:
bank[['family_status_id', 'family_status']].drop_duplicates().reset_index(drop=True)
# удаление дубликатов

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


Получили два новых датафрейма, в которых:
* каждому уникальному значению из **education** соответствует уникальное значение **education_id** 
* каждому уникальному значению из **family_status** соответствует уникальное значение **family_status_id** 

In [None]:
bank = bank.drop(columns = ['education','family_status'], axis = 1)
bank.head()
# удаление из исходного датафрейма столбцов education и family_status
# вывод на экран для проверки

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


Теперь в исходном датафрейме нет столбцов **education** и **family_status**

### Шаг 2.6. Категоризация дохода.

In [None]:
def function_income(total_income):
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000:
        return 'D'
    if total_income <= 200000:
        return 'C'
    if total_income <= 1000000:
        return 'B'
    return 'A'
# функция для категоризации дохода

In [None]:
bank['total_income_category'] = bank['total_income'].apply(function_income)
bank.head()
# добавление нового столбца на основе написанной функции
# проверка результата

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


### Шаг 2.7. Категоризация целей кредита.

In [None]:
bank['purpose'].unique()
# уникальные значения целей

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [None]:
def function_purpose(purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'
    if  'образован' in purpose:
        return 'получение образования'
    if 'свадьб' in purpose:
        return 'проведение свадьбы' 
    return 'операции с недвижимостью'
# функция для категоризации целей

In [None]:
bank['purpose_category'] = bank['purpose'].apply(function_purpose)
bank.head()
# добавление нового столбца на основе написанной функции
# проверка результата

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [None]:
debt_children = pd.DataFrame()
debt_children['count_children'] = bank.groupby('children')['debt'].count()
debt_children['sum_children'] = bank.groupby('children')['debt'].sum()
debt_children['result_children'] = debt_children['sum_children'] / debt_children['count_children'] * 100
debt_children.sort_values('result_children', ascending=False)

# первый вариант получения результата выбрал создание нового дф и группировки методом groupby.

Unnamed: 0_level_0,count_children,sum_children,result_children
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,41,4,9.756098
2,2128,202,9.492481
1,4855,445,9.165808
3,330,27,8.181818
0,14091,1063,7.543822
5,9,0,0.0


**Вывод:** 
С увеличением количества детей мы видим увеличение количества просроченных задолженностей, хотя люди с 3 детьми чаще платят в срок чем люди с 1 ребенком. Данные не однозначны, возможно, нужна большая выборка, чем та, которую мы имеем. Бездетные, как правило реже просрачивают оплату по кредиту, чем люди с детьми.

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [None]:
family_status_pivot = bank.pivot_table(index=['family_status_id'] , columns=['debt'], values='total_income', aggfunc='count')
family_status_pivot['ratio'] = family_status_pivot[1] / family_status_pivot[0] * 100
family_status_pivot
# в дальнейшем использую pivot_table

debt,0,1,ratio
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,11408,931,8.16094
1,3763,388,10.310922
2,896,63,7.03125
3,1110,85,7.657658
4,2536,274,10.804416


**Вывод:** Да, зависимость есть. Самые низкие показатели у разведенных и вдов — можно предположить, что возвращаемость кредитов зависит в том числе от наличия кормильца или супруга в семье.

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [None]:
income_pivot = bank.pivot_table(index=['total_income_category'], columns=['debt'], values='education_id', aggfunc='count')
income_pivot['ratio'] = income_pivot[1] / income_pivot[0] * 100
income_pivot
# вывод таблицы методом pivot_table

debt,0,1,ratio
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,23,2,8.695652
B,4685,356,7.598719
C,14656,1360,9.279476
D,329,21,6.382979
E,20,2,10.0


**Вывод:** Зависимость между уровнем дохода и возвратом кредита в срок не прослеживается.

##### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

In [None]:
credit_purpose_pivot = bank.pivot_table(index=['purpose_category'], columns=['debt'], values='education_id', aggfunc='count')
credit_purpose_pivot['ratio'] = credit_purpose_pivot[1] / credit_purpose_pivot[0] * 100
credit_purpose_pivot
# вывод таблицы методом pivot_table

debt,0,1,ratio
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3903,403,10.325391
операции с недвижимостью,10029,782,7.797388
получение образования,3643,370,10.156464
проведение свадьбы,2138,186,8.699719


**Вывод:** Цели кредита влияют. Хуже всего выглядят свадьбы и недвижимость. 

## Общий вывод:

Провели полную предобработку данных для исследования надежности заемщиков. 
* Заполнили пропуски медианным значением в столбцах **days_employed** и **total_income**.
* Проверили данные на аномалии, исправили значения в столбцах **children** и **days_employed**. 
* Привели столбцы **days_employed** и **total_income** к целочисленным значениям. 
* Нашли и удалили неявные дубликаты в столбце **education**.
* Категоризировали доход и цели кредита для ответа на главные вопросы заказчика.

Ответили на поставленные вопросы и сделали вывод:
* Семейное положение и количество детей клиента влияет на факт погашения кредита в срок. Нельзя сказать, что они кардинально отличаются, но внимание на это стоит уделить. Также нужно обратить внимание на цели кредита, недвижимость и свадьбы в зоне риска.