# Исследовательский проект

## Цели исследования:

Разобраться, влияет ли семейное положение, количество детей, уровень дохода клиента и цель кредитования на факт погашения кредита в срок.

## Входные данные:

Cтатистика о платёжеспособности клиентов

### Описание данных:

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

## План проекта:

Этап 1. Получение данных
- импортируем библиотеки
- прочитаем и сохраним данные
- посмотрим основную информацию данных
- сделаем предварительные выводы

Этап 2. Обработка данных
- избавимся от пропущенных значений
- удалим дубликаты
- проверим уникальность значений по столбцам
- решим проблему с аномальными значениями

Этап 3. Категоризация данных
- создадим категории по уровням дохода
- создадим категории по целям кредитования

Этап 4. Анализ данных

Ответим на вопросы:
- Есть ли зависимость между количеством детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?

Этап 5. Выводы
- подведем общие итоги исследования
- дадим рекомендации разработчикам для исключения ошибок в данных

# Этап 1. Получение данных 

## Изучим данные, предоставленные для проекта.

Импортируем библиотеку

In [4]:
import pandas as pd

Прочитаем файл и сохраним его в переменной data.

In [5]:
try: 
    data = pd.read_csv('C:/Users/Admin/Downloads/data.csv') #путь к файлу на локальной машине
except:
    data = pd.read_csv('https://github.com/Nik-Efimov/datasets/blob/main/bank_data.csv?raw=true') #путь к файлу по ссылке

Получим первые 5 строк таблицы.

In [6]:
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Посмотрим статистику о данных таблицы data.

In [7]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Посмотрим общую информацию датафрейма.

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Из таблицы общей информации наших данных видим, что два столбца имеют пропущенные значение, это столбцы: 'days_employed' и 'total_income'

## Выводы

Выявленные отклонения и аномалии:
- пропущенные значения в днях стажа и доходе
- некорректные значения в детях = -1
- отрицательные значения в днях стажа
- разный регистр букв в данных про образование
- минимальный возраст - 0
- некорректные данные в днях стажа, слишком большие числа

Скорректируем наши данные на следующем этапе.

# Этап 2. Обработка данных

### Проверим количество пропущенных значений

In [9]:
data.isna().sum() #сумма пропусков по столбцам

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Общий трудовой стаж также как и ежемесячный доход пропущены в 2174 случаях, это около 10% от всех значений датафрейма data, в котором 21525 строк. Десять процентов - это достаточно много и удаление строк с пропусками может привести к некорректным результатам при анализе.

Причина возникновения пропусков в данных столбцах неслучайная. Возможно, клиенты, заполняя заявку на получение кредита, не указали общий стаж и уровень дохода, либо эти люди не работали или работали неофициально.

Подставим вместо пропущенных значений нули. На данном этапе некорректно подставлять медианные и средние значения, вдруг человек действительно не работал.

In [10]:
data['days_employed'] = data['days_employed'].fillna(0) 

In [11]:
data['total_income'] = data['total_income'].fillna(0)

In [12]:
data.isna().sum() #проверим отсутствие пропусков

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Пропусков в нашей таблице больше нет

### Проверим наличие дубликатов

In [13]:
data.duplicated().sum() #сумма дубликатов, если есть

54

Дубликаты необходимо удалить. Причина их возникновения скорее всего при формировании заявки. 

In [14]:
data = data.drop_duplicates().reset_index(drop=True) #удалим дубликаты и обновим индексы строк

In [15]:
data.duplicated().sum() #проверим отстутствие дубликатов

0

Исправим некоректность данных в столбце 'children'

In [16]:
data['children'].unique() #посмотрим уникальные значения в столбце

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

Значение -1 некорректно, а значение 20 достаточно большое, чтоб соответствовать действительности

Разобьем суммы значений по группам

In [17]:
data['children'].value_counts()

 0     14107
 1      4809
 2      2052
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

-1 = 47 значений,
20 = 76 значений.
Скорее всего, ошибки имеют характер человеческого фактора и -1 это 1, а 20 это 2.

Заменим значения в датафрейме

In [18]:
data['children'] = data['children'].replace(-1, 1) #заменим -1 на 1

In [19]:
data['children'] = data['children'].replace(20, 2) #заменим 20 на 2

In [20]:
data['children'].unique() #проверим уникальные значения по столбцу

array([1, 0, 3, 2, 4, 5], dtype=int64)

Столбец 'children' привели в порядок

Теперь разберемся с некорректными данными в столбце трудового стажа 'days_employed'

In [21]:
data['days_employed'].describe() #посмотрим на статистику этого столбца

count     21471.000000
mean      56821.423140
std      135010.270744
min      -18388.949901
25%       -2522.536607
50%        -989.271304
75%           0.000000
max      401755.400475
Name: days_employed, dtype: float64

Есть как отрицательные значения так и слишком большие, максимальное значение 401755 дней, это 1100 лет. Вряд ли кто-то сможет столько работать.

С отрицательными разобраться проще, явно знак "-" здесь лишний и появился в данных по ошибки при выгрузке либо формировании датафрейма

In [22]:
data['days_employed'] = data['days_employed'].abs() #меняем отрицательные значения на положительные

Для удобства переведем дни в года

In [23]:
data['days_employed'] = data['days_employed'] / 365 #разделим значения колонки на 365 и получим количество лет трудового стажа

In [24]:
data = data.rename(columns={'days_employed': 'years_employed'}) #переименуем столбец в более соответствующее название

In [25]:
data['years_employed'] = data['years_employed'].astype(int) #заменим значения на целочисленные

In [26]:
data.head() 

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,15,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


В таком виде данными колонки общего стажа 'years_employed' пользоваться легче. Но пока не понятно, что делать с большими значениями.
Оставим пока так, как есть.

Наведем порядок в колонке с образованием

In [27]:
data['education'].unique() #проверим уникальные значения

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Разброс в регистрах велик. Причиной может быть человеческий фактор, при заполнении заявки человек может ввести как большими так и маленькими буквами. Можно исправить это, внедрив ниспадающий список, в котором уже прописаны готовые варианты для выбора

In [28]:
data['education'] = data['education'].str.lower() #приведем регистр значений к единому виду

In [29]:
data['education'].unique() #проверим уникальные значения ещё раз

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [30]:
data.duplicated().sum() #вновь проверим данные на наличие явных дубликатов

17

In [31]:
data = data.drop_duplicates().reset_index(drop=True) #удалим дубликаты и обновим индексы строк

In [32]:
data.duplicated().sum() #перепроверим

0

Теперь значение выражены одним регистром, работать с данными стало удобнее

Заодно избавились от появившихся явных дубликатов

Проверим уникальные значения всех колонок. Вдруг в остальных тоже есть некорректные значения 

In [33]:
data['family_status'].unique() # проверим колонку семейного статуса

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [34]:
data['family_status'] = data['family_status'].str.lower() #приведем регистр значений к единому виду

In [35]:
data['family_status'].unique() #проверим ещё раз

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

In [36]:
data['income_type'].unique() #проверим колонку типа занятости

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

C этим столбцом всё в прорядке

In [37]:
data['gender'].unique() #проверим колонку пола клиента

array(['F', 'M', 'XNA'], dtype=object)

Появилось странное третье значение, которое явно лишнее. Проверим количество этих значений

In [38]:
data['gender'].value_counts() 

F      14174
M       7279
XNA        1
Name: gender, dtype: int64

Значение 'XNA' встречается в таблице один раз, его наличием можно принебречь на дальнейшие расчеты это не повлияет.

Посмотрим на возраст. Ренее заметили, что присутствует значение возраста - 0.

In [39]:
data['dob_years'].value_counts() #посчитаем количество значений

35    616
40    607
41    605
34    601
38    597
42    596
33    581
39    572
31    559
36    554
44    545
29    544
30    537
48    536
37    536
50    513
43    512
32    509
49    508
28    503
45    496
27    493
52    484
56    483
47    477
54    476
46    472
53    459
57    456
58    454
51    446
59    443
55    443
26    408
60    374
25    357
61    354
62    348
63    269
24    264
64    260
23    252
65    193
22    183
66    182
67    167
21    111
0     101
68     99
69     85
70     65
71     56
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Клиентов с возрастом 0 оказалось 101 человек.

Возраста 0 лет у человека быть не может, тем более, который собирается брать кредит. Скорее всего это пропущенные значения в числовом выражении.
Предпочтительнее, в данном случае, расчитать среднее значение выборки по возрасту и заменить нулевые значения на расчитанное среднее.

In [40]:
data['dob_years'].mean() #находим среднее значение

43.271231471986574

In [41]:
data.loc[data['dob_years'] == 0, 'dob_years'] = 43 #заменим значения 0 на среднее значение = 43

In [42]:
data[data['dob_years'] == 0]['dob_years'].count() #посчитаем количество значений 0

0

In [43]:
data[data['dob_years'] == 43]['dob_years'].count() #посчитаем количество значений 0, было 512 человек

613

Прибавилось 101 человек. Таким образом мы избавились от нулевых значений. Причиной пропущенных значений может быть неккоректная выгрузка данных

Читать и пользоваться числом с 6-тью знаками после запятой не совсем удобно. Поэтому, переведем данные колонки 'total_income' из вещественного в целочисленный. 

In [44]:
data['total_income'] = data['total_income'].astype(int) #применим метод astype()

In [45]:
data.head() #проверим изменения

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


Привели данные ежемесячного дохода в вид целого числа. Данные стали визуально читабельными

С аномалиями в нашем датафрейме разобрались.

Что было сделано на текущем этапе:
- Удалены пропущенные значения в днях стажа и доходе. Для этого применили методы isna() и fillna() 
- Исправили некорректные значения в колонке о детях с помощью методов unique(), value_counts() и replace()
- Исправили отрицательные значения в днях стажа и перевели значения в года. Для этого использовали методы abs() и astype(int) 
- Удалили явные дубликаты, используя методы: duplicated().sum() для их нахождения и drop_duplicates().reset_index(drop=True) для их удаления
- Удалили неявные дубликаты. Например в колонке образование данные были записаны разным регистром. Методом unique() нашли уникальные, а str.lower() привел регистр к одному
- Исправили нулевой возраст, рассчитав среднее значение возраста методом mean() и заменив нули на среднее значение

# Этап 3. Категоризация данных

Столбцы education, education_id и family_status, family_status_id друг друга дублируют и являются излишними. Можно объединить эти столбцы в другую таблицу, а в исходной оставить лишь категории.

In [46]:
data_education = pd.DataFrame(data, columns = ['education_id', 'education']) #создадим датафрейм с колонками про образование

In [47]:
data_education.head() #проверим созданную таблицу

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее


In [48]:
data_family = pd.DataFrame(data, columns = ['family_status_id', 'family_status']) #создадим датафрейм с колонками про семейный статус

In [49]:
data_family.head() #проверим созданную таблицу

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак


Удалим столбцы с названиями образования и семейного статуса из исходной таблицы за их ненадобностью

In [50]:
data = data.drop(['education', 'family_status'], axis='columns') #удалим столбцы

In [51]:
data.head() #проверим обновленную таблицу

Unnamed: 0,children,years_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,11,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,15,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,11,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,932,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


Следующий шаг - категоризация колонки ежемесячного дохода. С таким разбросом данных неудобно анализировать, категории позволят разбить данные на несколько частей и мы сможем отсортировать наших клиентов согласно их доходам по соответствующим категориям

Создадим функцию, которая возвращает категорию по значению дохода, при условиях:
- от 0 до 30000 — 'E';
- от 30001 до 50000 — 'D';
- от 50001 до 200000 — 'C';
- от 200001 до 1000000 — 'B';
- свыше 1000000 — 'A'.

In [52]:
def total_group(total): #создадим функцию
    if total <=30000:   #зададим условия
        return 'E'
    if total <= 50000:
        return 'D'
    if total <= 200000:
        return 'C'
    if total <= 1000000:
        return 'B'
    return 'A' 
data['total_income_category'] = data['total_income'].apply(total_group) #добавим столбец,  в который наша функция 
                                                                        #вернет категории по значению дохода                                           

In [53]:
data.head()

Unnamed: 0,children,years_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,23,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,11,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,15,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,11,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,932,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


Наша функция работает, теперь в таблице дополнительный столбец с категориями доходов клиентов

Теперь расммотрим колонку 'purpose' - цель получения кредита

In [54]:
data['purpose'].unique() #посмотрим на уникальные значения

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Очень много дубликатов. По сути можно выделить четыре категории целей для кредитования:
- операции с автомобилем
- операции с недвижимостью
- проведение свадьбы
- получение образования

Создадим функцию, которая отфильтрует нашу колонку 'purpose' и присвоит в новом столбце каждому значению категорию исходя из цели

In [55]:
def purpose_group(purpose):                                      #создадим функцию
        if 'жил' in purpose or 'недвиж' in purpose:              #применим условия
            return 'операции с недвижимостью'
        if 'авто' in purpose:
            return 'операции с автомобилем'
        if 'свадьб' in purpose:
            return 'проведение свадьбы'
        if 'образов' in purpose:
            return 'получение образования'
               
data['purpose_category'] = data['purpose'].apply(purpose_group)  #добавим категории в новый столбец 

In [56]:
data.head()  #выведем на экран первые 5 строк для проверки

Unnamed: 0,children,years_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,23,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,11,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,15,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,11,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,932,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


Теперь, вместо множества различных значений целей кредитования, у нас есть категории, по которым удобно сортировать нашу таблицу

In [57]:
data['purpose_category'].value_counts() #отсортируем новый столбец и посмотрим на корректность нашей функции

операции с недвижимостью    10811
операции с автомобилем       4306
получение образования        4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64

# Этап 4. Анализ данных

Выполнив обработку данных и категоризацию, можно приступить к подтверждению либо опровержению наших гипотез.

Вопросы, на которые нужно ответить:
- Есть ли зависимость между количеством детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?

## Зависимость между количеством детей и возвратом кредита в срок

In [58]:
children_pivot = data.pivot_table(index='children',                    #создадим сводную таблицу
                          values='debt',
                          aggfunc=['count', 'sum', 'mean'])
children_pivot                                                         #и выведем на экран

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14091,1063,0.075438
1,4855,445,0.091658
2,2128,202,0.094925
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


Можно сделать вывод, что клиенты не имеющие детей платят по кредитам лучше

## Зависимость между семейным положением и возвратом кредита в срок

Применим тот же метод формирования сводной таблицы и формулу расчета, как и в предыдущем шаге

In [59]:
family_pivot = data.pivot_table(index=data_family['family_status'],
                          values='debt',
                          aggfunc=['count', 'sum', 'mean'])
family_pivot                                                       

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
в разводе,1195,85,0.07113
вдовец / вдова,959,63,0.065693
гражданский брак,4151,388,0.093471
женат / замужем,12339,931,0.075452
не женат / не замужем,2810,274,0.097509


Высокие показатели по задолженности у групп клиентов, находящиеся в гражданском браке с партнером а также не состоящие в браке

У групп людей в разводе и вдовствующие напротив - показатели по задолженности низкие.

Можно предположить, что разведенные и вдовствующие клиенты, имеют более характерный жизненный опыт и относятся к заемным деньгам более ответственно, чем люди не состоящие в браке и отношениях

## Зависимость между уровнем дохода и возвратом кредита в срок

In [60]:
total_income_pivot = data.pivot_table(index='total_income_category', 
                          values='debt',
                          aggfunc=['count', 'sum', 'mean'])
total_income_pivot

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,25,2,0.08
B,5041,356,0.070621
C,13913,1190,0.085532
D,350,21,0.06
E,2125,172,0.080941


Напомним о градации категорий
- от 0 до 30000 — 'E'        (очень низкий уровень дохода) 
- от 30001 до 50000  — 'D'    (низкий уровень дохода)
- от 50001 до 200000  — 'C'   (средний уровень дохода)
- от 200001 до 1000000 — 'B' (высокий уровень дохода)
- свыше 1000000   — 'A'        (очень высокий уровень дохода)

Смотря на показатели, можно сделать вывод, что хуже всего платит по кредитам средний класс. Самые дисциплинированные клиенты - это люди с невысоким доходом и обеспеченные люди. Что в целом логично, небогатые люди опасаются последствий просрочки, а состоятельные - умеют считать деньги.

## Влияние целей кредита на его возврат в срок

In [61]:
purpose_pivot = data.pivot_table(index='purpose_category', 
                          values='debt',
                          aggfunc=['count', 'sum', 'mean'])
purpose_pivot                                                     

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,4306,403,0.09359
операции с недвижимостью,10811,782,0.072334
получение образования,4013,370,0.0922
проведение свадьбы,2324,186,0.080034


Клиенты, которые взяли кредит на жилье, чаще всего расплатятся по кредитам без задолженности. А вот вероятность просрочки у людей, которые брали кредит на машину либо обучение, достаточно высокая.

# Этап 5. Выводы

### Ответим, подтвердились ли гипотезы, которые были заданы для решения задач.

- Есть ли зависимость между количеством детей и возвратом кредита в срок?
  - Да. Уровень просрочки у бездетных клиентов низкий.
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
  - Да. Разведенные и вдовствующие клиенты платят по кредитам лучше.
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
  - Скорее нет. Разброс соотношений невелик и выделить конкретную категорию клиентов с определенным доходом, которые     задерживаются с оптатой по кредиту, не представляется возможным.
- Как разные цели кредита влияют на его возврат в срок?
  - Да. Клиенты, которые взяли заёмные деньги в банке для покупки жилья, чаще всего возвращают кредит без задержек.

### Предложения разработчикам:

1. Внедрить ниспадающий список для главы "образование". Исключит разные регистры при вводе.
2. Сделать заполнение в форме пунктов про стаж и доход обязательным. Исключит пропущенные значения
3. Проверить откуда появляются отрицательные значения дохода.
4. Проверить откуда берутся отрицательные и слишком большие значения количества детей.
5. Сделать стандартный список для выбора целей кредита при заполнения заявки-формы.