## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

# Содержание

- [п.1. Общая информация](#1)
* [п.1.1. Изучение общей информации](#1.1)
* [п.1.2. Вывод](#1.2)
* [п.2. Предобработка данных](#2)
* [п.2.1. Обработка пропусков](#2.1)
* [п.2.1.1. Столбец "dob_years"](#2.1.1)
* [п.2.1.2. Столбец "children"](#2.1.2)
* [п.2.1.3. Столбец "days_employed"](#2.1.3)
* [п.2.1.4. Столбец "education"](#2.1.4)
* [п.2.1.5. Столбец "gender"](#2.1.5)
* [п.2.1.6. Столбец "total_income"](#2.1.6)
* [п.2.1.7. Вывод](#2.1.7)
* [п.2.2. Замена типа данных](#2.2)
* [п.2.3. Обработка дубликатов](#2.3)
* [п.2.4. Лемматизация](#2.4)
* [п.2.5. Категоризация данных](#2.5)
* [п.2.5.1. Сводные таблицы для ответа на вопрос №1](#2.5.1)
* [п.2.5.2. Сводные таблицы для ответа на вопрос №2](#2.5.2)
* [п.2.5.3. Сводные таблицы для ответа на вопрос №3](#2.5.3)
* [п.2.5.4. Сводные таблицы для ответа на вопрос №4](#2.5.4)
* [п.2.5.5. Вывод](#2.5.5)
* [п.3. Влияние различных факторов на факт погашения кредита в срок](#3)
* [п.3.1. Есть ли зависимость между наличием детей и возвратом кредита в срок?](#3.1)
* [п.3.2. Есть ли зависимость между семейным положением и возвратом кредита в срок?](#3.2)
* [п.3.3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?](#3.3)
* [п.3.4. Как разные цели кредита влияют на его возврат в срок?](#3.4)
* [п.4. Заключение](#4)

## 1. Общая информация
<a id="1"></a>

### 1.1. Изучение общей информации
<a id="1.1"></a>

Просмотрим общую информацию по колонкам

In [1]:
import pandas as pd

try:  
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv(r'C:\Users\Admiral\Desktop\учеба\практикум\Проекты\Datasets\01.csv')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Изучим первые 10 строк

In [2]:
display(data.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Изучим последнии 10 строк

In [3]:
display(data.tail(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


Изучим уникальные значения столбца "children"

In [4]:
display(data['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Изучим уникальные значения столбца "dob_years"

In [5]:
display(data['dob_years'].value_counts())

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Изучим уникальные значения столбца "education"

In [6]:
display(data['education'].value_counts())

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Изучим уникальные значения столбца "education_id"

In [7]:
display(data['education_id'].value_counts())

1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64

Изучим уникальные значения столбца "family_status"

In [8]:
display(data['family_status'].value_counts())

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

Изучим уникальные значения столбца "family_status_id"

In [9]:
display(data['family_status_id'].value_counts())

0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64

Изучим уникальные значения столбца "gender"

In [10]:
display(data['gender'].value_counts())

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Изучим уникальные значения столбца "income_type"

In [11]:
display(data['income_type'].value_counts())

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

Изучим уникальные значения столбца "debt"

In [12]:
display(data['debt'].value_counts())

0    19784
1     1741
Name: debt, dtype: int64

Изучим уникальные значения столбца "purpose"

In [13]:
display(data['purpose'].value_counts())

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

### 1.2. Вывод
<a id="1.2"></a>

Изучив общую информацию по таблице сделалали следующие выводы:
1. Наименования столбцов корректные. Замена не требуется
2. В столбцах "days_employed" и "total_income" выявили одинаковое количество пропущенных значений, а именно 2174, возможно это одни и те же строки, так как трудовой стаж и ежемесячный доход связанные показатели. В остальных столбцах пропущенных значений не выявили.
3. В столбце "children" выявили 76 семей с 20-ю детьми и 47 семей с отрицательным количеством детей.  По состоянию на 2020 год в России существует только одна семья с своими 20 детьми. Маловероятно такое количество семей, даже если дети на усыновлении. Возможно это опечатка, так как на полноценной клавиатуре на правой части "0" и "2" находятся по соседству. Отрицательные значения могут быть последствиями особенности кода программы по обработке данных о клиенте. Возможно если нет данных по количеству детей, программа выводит значение "-1".
4. Кроме пропущенных значений в столбце "days_employed" существуют отрицательные значения и положительные значения. Положительные значения не внушают доверия. Например при переводе 4 строки из дней в года получим 932 года непрерывной работы. Отрицательные значения похожи на правду, при необходимости нужно будет перевести их в положительные.
5. В столбце "dob_years" выявили 101 клиента с возрастом 0 лет. Тип данных в столбце подходящий, int64.
6. В столбце "education" выявили только одну проблему - разный регистр букв. Методом str.lower() можно все исправить.
7. В столбце "education_id" 5 уникальных значений. После исправления регистра в столбце "education" нужно будет проверить совпадают ли количества уникальных значений этих столбцов. 
8. В столбцах "family_status" и "family_status_id" все корректно.
9. В столбце "gender" выявили одно значение "XNA". Оно помешает расчетам. Необходимо заменить на "F", статистику это не испортит.
10. В столбце "income_type" все корректно. Но, если понадобится производить расчеты с участием данного столбца, будет лучше его сократить по количеству наименований. Половина из них имеет единичные показатели по количеству.
11. В столбце "debt" все корректно. Тип данных подходящий, int64.
12. В столбце "total_income" кроме пропущенных значений проблем не выявили. После заполнения пропущенных значений необходимо перевести тип данных в int64 для повышения читаемости.
13. В столбце "purpose" слишком много слов, которые при помощи лемматизации можно привести всего к 5-ти различным категориям, а именно : свадьба, жилая недвижимость, коммерческая  недвижимость, автомобиль, образование. 



## 2. Предобработка данных
<a id="2"></a>

### 2.1. Обработка пропусков
<a id="2.1"></a>

#### 2.1.1. Столбец "dob_years"
<a id="2.1.1"></a>


В столбце "dob_years" 101 клиент с возрастом 0 лет, что составляет почти пол процента от общего количества клиентов. Данные о возрасте взять негде, количество таких клиентов небольшое. Проверим минимальный и максимальный возраст. Если все в порядке, заменим на медианное значение в зависимости от типа занятости.

In [14]:
display(data[data['dob_years'] > 0]['dob_years'].min())

19

In [15]:
display(data['dob_years'].max())

75

Создадим новую копию, в которой будем производить все изменения

In [16]:
main_data = data.copy()

Заменим на медианное значение в зависимости от типа занятости.

In [17]:
main_data['dob_years'] = data['dob_years'].replace(0,
    data.groupby('income_type')['dob_years'].transform('median'))

Проверим замену

In [18]:
display(main_data[main_data['dob_years'] < 19]['dob_years'].count())

0

#### 2.1.2. Столбец "children"
<a id="2.1.2"></a>

Проверим медианный возраст клиентов с некорректными данными по столбцу

In [19]:
display(main_data[main_data['children'] == 20]['dob_years'].median())

41.5

In [20]:
display(main_data[main_data['children'] == -1]['dob_years'].median())

41.0

Проверим была ли связь этих клиентов с клиентами с нулевым возрастом.

In [21]:
display(data[(data['children'] == 20) & (data['dob_years'] == 0)]['children'].count())

1

In [22]:
display(data[(data['children'] == -1) & (data['dob_years'] == 0)]['children'].count())

0

Только один клиент совпал. Связи нет. Заменим количество детей клиентов с 20 детьми на 2, а клиентов с -1 на 0 и проверим результат.

In [23]:
main_data['children'] = main_data['children'].replace(20, 2)
main_data['children'] = main_data['children'].replace(-1, 0)
display(main_data['children'].value_counts())

0    14196
1     4818
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

#### 2.1.3. Столбец "days_employed"
<a id="2.1.3"></a>

Проверим количество положительных значений столбца

In [24]:
display(main_data[main_data['days_employed'] > 0]['days_employed'].count())

3445

Проверим количество отрицательных значений столбца

In [25]:
display(main_data[main_data['days_employed'] < 0]['days_employed'].count())

15906

Проверим количество пустых значений

In [26]:
display(main_data[main_data['days_employed'].isna() == True]['days_employed'].isna().sum())

2174

Столбец "days_employed" не будет использоваться в исследовании, так как более четверти значений данного столбца некорректны. Но необходимо проверить, совпадают ли строки с пустыми значениями трудового стажа со строками с пустыми значениями в ежемесячном доходе, а так же заменить пустые значения столбца "days_employed" на 0, если строки совпадают.

In [27]:
display(main_data[(main_data['days_employed'].isna() == True) &
           (main_data['total_income'].isna() == True)]['days_employed'].isna().sum())

2174

Строки столбцов с пустыми значениями "days_employed" и "total_income" совпадают. Произведем замену на 0 в столбце "days_employed" и проверим общую информацию по таблице

In [28]:
main_data['days_employed'] = main_data['days_employed'].fillna(0)
main_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Проверим, являются ли пенсионерами клиенты с некорректными значениями в столбце "days_employed". Для начала выведем количество  клиентов категории пенсионеры.

In [29]:
pensioner = data[data['income_type'] == 'пенсионер']['income_type'].count()
display(pensioner)

3856

Выведем количество клиентов категории пенсионеры с положительными значениями

In [30]:
pensionerPlus = data[(data['income_type'] == 'пенсионер') & (
    data['days_employed'] > 0)]['total_income'].count()
display(pensionerPlus)

3443

Выведем клиентов категории пенсионеры с пропущенными значениями.

In [31]:
pensionerNAN = data[(data['income_type'] == 'пенсионер') & (
    data['days_employed'].isna() == True)]['income_type'].count()
display(pensionerNAN)

413

Выведем общее количество клиентов с пропущенными значениями

In [32]:
allNAN = data[data['days_employed'].isna() == True]['income_type'].count()
display(allNAN)

2174

Выведем общее количество клиентов с некорректными положительными значениями.

In [33]:
display(data[data['days_employed'] > 0]['total_income'].count())

3445

Почти все клиенты ,без двух, с некорректными значениями в столбце "days_employed" являются пенсионерами. Кроме того оставшиеся 413 пенсионеров имеют NAN в данном столбце. В любом случае навести порядок в данном столбце не предоставляется возможным ввиду большого значения некорректных значений.

#### 2.1.4. Столбец "education"
<a id="2.1.4"></a>

В данном столбце разный регистр букв. Методом str.lower() исправим это и проверим результат при помощи группировки со столбцом "education_id" методом groupby

In [34]:
main_data['education'] = main_data['education'].str.lower() 
display(main_data.groupby('education')['education_id'].count())

education
высшее                  5260
начальное                282
неоконченное высшее      744
среднее                15233
ученая степень             6
Name: education_id, dtype: int64

#### 2.1.5. Столбец "gender"
<a id="2.1.5"></a>

 В столбце "gender" заменим одно значение "XNA" на "F" и проверим уникальные значения.

In [35]:
main_data['gender'] = main_data['gender'].replace('XNA', 'F')
display(main_data['gender'].value_counts())

F    14237
M     7288
Name: gender, dtype: int64

#### 2.1.6. Столбец "total_income"
<a id="2.1.6"></a>

Проверим максимальное и минимальное значения столбца

Максимальный ежемесячный доход:

In [36]:
display(data['total_income'].max())

2265604.028722744

Количество клиентов с ежемесечным доходом выше 1млн:

In [37]:
display(data[data['total_income'] > 1000000]['total_income'].count())

25

Минимальный ежемесячный доход:

In [38]:
display(data['total_income'].min())

20667.26379327158

Значения похожи на правду.

Выведем одтельную таблицу по клиентам с значением NAN  в столбце 'total_income'

In [39]:
dataNAN = main_data[(main_data['total_income'].isna() == True)]

Выведем сгруппированную таблицу по типу занятости. Проверим, относятся ли клиенты к определенному типу занятости

In [40]:
display(dataNAN.groupby('income_type')['income_type'].count())

income_type
госслужащий         147
компаньон           508
пенсионер           413
предприниматель       1
сотрудник          1105
Name: income_type, dtype: int64

Значение NAN случайно распределено по типу занятости.

Проверим, различен ли доход в зависимости от типа занятости. Выведем медианное значение дохода по каждой категории.

In [41]:
display(main_data.groupby('income_type')['total_income'].median())

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64

Различия существенны, нужно будет учесть если будем заполнять пропущенные значения средними по столбцу.

Проверим, относятся ли клиенты к определенному полу. Для начала посчитаем общее количество клиентов женского пола.

In [42]:
women = main_data[main_data['gender'] == 'F']['gender'].count()
display(women)

14237

Посчитаем количество клиентов женского пола с пустыми значениями в столбце "total_income".

In [43]:
womenNAN = dataNAN[dataNAN['gender'] == 'F']['gender'].count()
display(womenNAN)

1484

Посчитаем общее количество клиентов мужского пола.

In [44]:
men = main_data[main_data['gender'] == 'M']['gender'].count()
display(men)

7288

Посчитаем количество клиентов мужского пола с пустыми значениями в столбце "total_income".

In [45]:
menNAN = dataNAN[dataNAN['gender'] == 'M']['gender'].count()
display(menNAN)

690

Проверим количество женщин с NAN в зависимости от общего количества женщин в процентом соотношении.

In [46]:
display(womenNAN * 100/ women)

10.423544286015312

Проверим количество мужчин с NAN в зависимости от общего количества мужчин в процентом соотношении.

In [47]:
display(menNAN * 100 / men)

9.46761800219539

Значения NAN у мужчин и женщин встречается с примерно одинаковым отношением в зависимоти от их общего количества. Классификация по полу не имеет значения.

Проверим, различается ли медианный доход мужского пола от медианного дохода женского пола.

Медианный доход женского пола:

In [48]:
display(main_data[main_data['gender'] == 'F']['total_income'].median())

134157.28405728302

Медианный доход мужского пола:

In [49]:
display(main_data[main_data['gender'] == 'M']['total_income'].median())

167714.34371587454

Разница существенная, нужно будет учесть если будем заполнять пропущенные значения средними по столбцу.

Распределим количество NAN по трем возрастным категориям: до 30 лет, от 30 лет до 50 лет и старше 50 лет и проверим процентное отношение от общего количества клиентов по тем же категориям.

Количество клиентов с NAN в столбце "total_income" старше 50 лет

In [50]:
countNAN50 = dataNAN[dataNAN['dob_years'] > 50]['dob_years'].count()
display(countNAN50)

715

Общее количество клиентов старше 50 лет

In [51]:
count50 = main_data[main_data['dob_years'] > 50]['dob_years'].count()
display(count50)

6702

Количество клиентов с NAN в столбце "total_income" от 30 до 50 лет

In [52]:
countNAN30_50 = dataNAN[(dataNAN['dob_years']  <= 50) & (
    dataNAN['dob_years']  >= 30)]['dob_years'].count()
display(countNAN30_50)

1160

Общее количество клиентов от 30 до 50 лет

In [53]:
count30_50 = main_data[(main_data['dob_years']  <= 50) & (
    main_data['dob_years']  >= 30)]['dob_years'].count()
display(count30_50)

11640

Количество клиентов с NAN в столбце "total_income" до 30 лет

In [54]:
countNAN30 = dataNAN[dataNAN['dob_years'] < 30]['dob_years'].count()

Общее количество клиентов до 30 лет

In [55]:
count30 = main_data[main_data['dob_years'] < 30]['dob_years'].count()
display(count30)

3183

Количество клиентов с NAN в возрасте старше 50 лет в процентом отношении от общего количества клиентов старше 50 лет

In [56]:
display(countNAN50 * 100 / count50)

10.6684571769621

Количество клиентов с NAN в возрасте старше от 30 до 50 лет лет в процентном отношении от общего количества клиентов от 30 до 50 лет

In [57]:
display(countNAN30_50 * 100 / count30_50)

9.965635738831615

Количество клиентов с NAN в возрасте до 30 лет в процентном отношении от общего количества клиентов до 30 лет

In [58]:
display(countNAN30 * 100 / count30)

9.393653785736726

Явного отклонения по возрастным категориям не обнаружено. Классификация по возрасту не имеет значения.

Проверим, различен ли медианный доход в разных возрастных категориях.

Медианный доход клиентов возрастом до 30 лет

In [59]:
display(main_data[main_data['dob_years'] < 30]['total_income'].median())

142141.58277574496

Медианный доход клиентов возрастом от 30 до 50 лет

In [60]:
display(main_data[(main_data['dob_years']  <= 50) & (
    main_data['dob_years']  >= 30)]['total_income'].median())

154145.96967103012

Медианный доход клиентов возрастом старше 50 лет

In [61]:
display(main_data[main_data['dob_years'] > 50]['total_income'].median())

133122.85558554393

Клиенты в возрасте от 30 до 50 лет медианно имеют больший ежемесячный доход на 8% по отношению к младшей категории и на 14% по отношению к старшей категории. Разниличие существенное, нужно будет учесть если будем заполнять пропущенные значения средними по столбцу.

Проверим, есть ли зависимость пропусков в столбце "income_type" от типа занятости.

Выведем общее количество клиентов по категориям типа занятости

In [62]:
main_data_group_income = main_data['income_type'].value_counts()
display(main_data_group_income)

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

Выведем количество клиентов с пропусками в столбце "total_income" по категориям типа занятости

In [63]:
dataNAN_group_income = dataNAN['income_type'].value_counts()
display(dataNAN_group_income)

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

Выведем количество клиентов с NAN в отношении к общему количеству клиентов по категории типа занятости, в %

In [64]:
display(dataNAN_group_income * 100 / main_data_group_income)

безработный              NaN
в декрете                NaN
госслужащий        10.075394
компаньон           9.990167
пенсионер          10.710581
предприниматель    50.000000
сотрудник           9.937944
студент                  NaN
Name: income_type, dtype: float64

Общее количество клиентов в категориях {предприниматель, студент, безработный, в декрете} составляет 6 человек. Их можно не брать к выводу. По остальным категориям глобального перекоса в какую либо категорию не обнаружено.

Для принятия решения по пропущенным значениям в столбце "income_type" необходимо проверить какое количество клиентов с пропущенным значением имели задолженность по возврату кредитов и какую долю это количество составляет от общего количества задолжников.

Количество клиентов, которые имели задолжность по возврту кредитов:

In [65]:
debt_count = main_data[main_data['debt'] == 1]['debt'].count()
display(debt_count)

1741

Количество клиентов, которые имели задолжность по возврту кредитов и
имеют пропуск в столбце "income_type":

In [66]:
NAN_debt_count = dataNAN[dataNAN['debt'] == 1]['debt'].count()
display(NAN_debt_count)

170

Процентная доля составляет:

In [67]:
display(NAN_debt_count * 100 / debt_count)

9.764503159103963

10 процентов чувствительная доля. Она может повлиять на ответ на задание заказчика. 

В связи с тем, что пропущенные значения не удалось охарактеризовать по какой либо из категорий и разбросаны они в случайном порядке, принимаем решение заполнить их медианным значением, зависящим от возраста клиента,типа занятости и пола клиента.

In [68]:
main_data['total_income'] = main_data['total_income'].fillna(
    main_data.groupby(['gender', 'income_type', 'dob_years']
                     )['total_income'].transform('median'))

Проверим результат

In [69]:
main_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21520 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Осталось 5 строк с пропущенными значениями. Проверим эти строки

In [70]:
display(main_data[main_data['total_income'].isna() == True].head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3619,0,0.0,24,среднее,1,женат / замужем,0,F,пенсионер,0,,покупка своего жилья
5936,0,0.0,58,высшее,0,женат / замужем,0,M,предприниматель,0,,покупка жилой недвижимости
17374,0,0.0,69,высшее,0,Не женат / не замужем,4,F,компаньон,0,,автомобили
18175,2,0.0,31,среднее,1,гражданский брак,1,F,пенсионер,0,,свадьба
18255,0,0.0,38,среднее,1,гражданский брак,1,M,пенсионер,0,,профильное образование


Ничего необчычного не находим. Попробуем заменить их на медианное значение в зависимости только от типа занятости.

In [71]:
main_data['total_income'] = main_data['total_income'].fillna(
    main_data.groupby('income_type')['total_income'].transform('median'))

Проверим результат

In [72]:
main_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Все в порядке, замена прошла успешно.

#### 2.1.7. Вывод
<a id="2.1.7"></a>

1. В столбцах "days_employed" и "total_income" было выявлено одинаковое количество пропущенных значений, как оказалось это одни и те же строки. Найти связь с остальными колонками для выяснения причины не удалось, возможно малая часть этих клиентов и правда никогда не работали, но в основном считаем что данные поля они сами не заполнили или у них небыло подтверждающих стаж и доход документов. Заменили пустые значения в столбце "total_income" на медианные в зависимости от возраста клиента, типа занятости и его пола. В столбце "days_employed" было обнаружено более четверти некорректных значений, полагаться на такие данные нельзя. В любом случае столбец не будет учитываться при построении выводов. Заменили пустые значения на 0.
2. В столбце "children" выявлено 76 семей с 20-ю детьми и 47 семей с отрицательным количеством детей.  По состоянию на 2020 год в России существует только одна семья с своими 20 детьми. Маловероятно такое количество семей, даже если дети на усыновлении. Возможно это опечатка, так как на полноценной клавиатуре на правой части "0" и "2" находятся по соседству. Отрицательные значения могут быть последствиями особенности кода программы по обработке данных о клиенте. Возможно если нет данных по количеству детей, программа выводит значение "-1". Заменил значение 20 на 2, а значение -1 на 0.
3. В столбце "dob_years" 101 клиент с возрастом 0 лет, что составляет почти пол процента от общего количества клиентов. Возможно значения были некорректны, например вместо 1989 года клиент указал 1889, поэтому в выгрузку попал 0. Данные о возрасте взять негде, количество таких клиентов небольшое. Заменили на медианное значение в зависимости от типа занятости.
4. В столбце "education" исправили разный регистр букв методом str.lower().
5. В столбце "gender" заменили одно значение "XNA" на "F", так как имени в выгрузки нет и невозможно определить пол.

### 2.2. Замена типа данных
<a id="2.2"></a>

Для улучшения читаемости в столбцах "total_income" и "days_employed" заменим тип всех значений на int64 при помощи метода astype

In [73]:
main_data['total_income'] = main_data['total_income'].astype('int')
main_data['days_employed'] = main_data['days_employed'].astype('int')

Проверим изменения

In [74]:
main_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


#### Вывод
Изменение типа данных прошло успешно.

### 2.3. Обработка дубликатов
<a id="2.3"></a>

Проверим количество дубликатов в первоначальной таблице

In [75]:
display(data.duplicated().sum())

54

Проверим количество дубликатов в последнем варианте таблицы

In [76]:
display(main_data.duplicated().sum())

71

Количество дубликатов изменилось. Думаю это произошло в связи с изменением регистра в столбце "education".

Сохраним дубликаты в переменной data_dupl. Посмотрим первые 10 дубликатов

In [77]:
data_dupl = main_data[main_data.duplicated()]
display(data_dupl.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,0,41,среднее,1,женат / замужем,0,F,сотрудник,0,128925,покупка жилья для семьи
3290,0,0,58,среднее,1,гражданский брак,1,F,пенсионер,0,111219,сыграть свадьбу
4182,1,0,34,высшее,0,гражданский брак,1,F,сотрудник,0,127976,свадьба
4851,0,0,60,среднее,1,гражданский брак,1,F,пенсионер,0,114653,свадьба
5557,0,0,58,среднее,1,гражданский брак,1,F,пенсионер,0,111219,сыграть свадьбу
6312,0,0,30,среднее,1,женат / замужем,0,M,сотрудник,0,153163,строительство жилой недвижимости
7808,0,0,57,среднее,1,гражданский брак,1,F,пенсионер,0,128288,на проведение свадьбы
7921,0,0,64,высшее,0,гражданский брак,1,F,пенсионер,0,127962,на проведение свадьбы
7938,0,0,71,среднее,1,гражданский брак,1,F,пенсионер,0,115738,на проведение свадьбы
8583,0,0,58,высшее,0,Не женат / не замужем,4,F,пенсионер,0,111219,дополнительное образование


Первые 10 клиентов оказались теми клиентами у которых был NAN в столбце "days_employed". Проверим общее количество таких клиентов в дубликатах.

In [78]:
display(data_dupl[data_dupl['days_employed'] == 0]['days_employed'].count())

71

Все 71 дублированные клиенты имели NAN в столбце "days_employed". Возможно что то не так с программой выгрузки.

Возможно дубликатов больше. Проверим количество дубликатов без учета столбца "purpose".

In [79]:
display(main_data.duplicated(subset=['children', 'days_employed', 'dob_years', 'education',
                    'education_id', 'family_status', 'family_status_id',
                   'gender', 'income_type', 'debt', 'total_income']).sum())

750

Удалим 71 дубликат и выведем общую информацию по таблице

In [80]:
main_data = main_data.drop_duplicates().reset_index(drop=True)
main_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
children            21454 non-null int64
days_employed       21454 non-null int64
dob_years           21454 non-null int64
education           21454 non-null object
education_id        21454 non-null int64
family_status       21454 non-null object
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        21454 non-null int64
purpose             21454 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


Дубликаты успешно удалены.

#### Вывод
Количество дубликатов в итоговой таблице обнаружено 71 шт. Без учета столбца "purpose" оказалось что их может быть 750. Вероятно их меньше чем 750 но и больше чем 71. После проведения лемматизации нужно будет повторно провести поиск дубликатов.
Методом df.drop_duplicates() дубликаты удалены из таблицы.

### 2.4. Лемматизация
<a id="2.4"></a>

Выведем уникальные значения столбца "purpose"

In [81]:
display(main_data['purpose'].value_counts())

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Добавим столбец с лемматизированными значениями стобца "purpose" и удалим столбец "purpose"

In [82]:
from pymystem3 import Mystem
m = Mystem()
main_data['purpose_lemm'] = main_data['purpose'].apply(m.lemmatize)
main_data = main_data.drop(['purpose'], axis=1)

Проверим первые 5 строк таблицы

In [83]:
display(main_data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose_lemm
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,"[покупка, , жилье, \n]"
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,"[приобретение, , автомобиль, \n]"
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,"[покупка, , жилье, \n]"
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,"[дополнительный, , образование, \n]"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,"[сыграть, , свадьба, \n]"


Напишем функцию, которая в зависимоти от найденного слова будет добавлять в новый столбец "purpose" нужное значение

In [84]:
def purp(row):
    row_purp = row['purpose_lemm']
    if 'образование' in row_purp:
        return 'образование'
    elif 'свадьба' in row_purp:
        return 'свадьба'
    elif 'автомобиль' in row_purp:
        return 'автомобиль'
    elif 'коммерческий' in row_purp:
        return 'коммерческая недвижимость'
    elif 'жилье' or 'жилой' or 'недвижимость' in row_purp:
        return 'жилая недвижимость'
    else:
        return 'ERROR!'
    
main_data['purpose'] = main_data.apply(purp, axis=1)

Проверим уникальные значения нового столбца

In [85]:
display(main_data['purpose'].value_counts())

жилая недвижимость           9500
автомобиль                   4306
образование                  4013
свадьба                      2324
коммерческая недвижимость    1311
Name: purpose, dtype: int64

Проверим первые 5 строк обновленной таблицы.

In [86]:
display(main_data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose_lemm,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,"[покупка, , жилье, \n]",жилая недвижимость
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,"[приобретение, , автомобиль, \n]",автомобиль
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,"[покупка, , жилье, \n]",жилая недвижимость
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,"[дополнительный, , образование, \n]",образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,"[сыграть, , свадьба, \n]",свадьба


Удалим столбец "purpose_lemm", он больше не нужен

In [87]:
main_data = main_data.drop(['purpose_lemm'], axis=1)

Снова проверим количество дубликатов

In [88]:
display(main_data.duplicated().sum())

301

Посмотрим первые 10 строк дубликатов.

In [89]:
data_dupl2 = main_data[main_data.duplicated()]
display(data_dupl2.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
360,0,0,27,среднее,1,женат / замужем,0,M,компаньон,0,209551,жилая недвижимость
829,0,0,57,среднее,1,гражданский брак,1,F,компаньон,0,167242,образование
1010,0,0,66,среднее,1,женат / замужем,0,F,пенсионер,0,106054,жилая недвижимость
1072,0,0,44,среднее,1,гражданский брак,1,F,сотрудник,0,137075,жилая недвижимость
1247,0,0,54,среднее,1,гражданский брак,1,M,сотрудник,0,151336,свадьба
2210,1,0,49,высшее,0,женат / замужем,0,F,сотрудник,0,125128,жилая недвижимость
2284,0,0,60,среднее,1,вдовец / вдова,2,F,пенсионер,0,114653,жилая недвижимость
2343,0,0,47,среднее,1,женат / замужем,0,M,сотрудник,0,167766,жилая недвижимость
2700,0,0,65,среднее,1,женат / замужем,0,F,пенсионер,0,117928,жилая недвижимость
3074,0,0,62,среднее,1,женат / замужем,0,M,пенсионер,0,128882,жилая недвижимость


Первые 10 клиентов снова оказались теми клиентами у которых был NAN в столбце "days_employed". Проверим общее количество таких клиентов в дубликатах.

In [90]:
display(data_dupl2[data_dupl2['days_employed'] == 0]['days_employed'].count())

301

И снова это те самые клиенты. Удалим дубликаты и выведем общую информацию по таблице

In [91]:
main_data = main_data.drop_duplicates().reset_index(drop=True)
main_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21153 entries, 0 to 21152
Data columns (total 12 columns):
children            21153 non-null int64
days_employed       21153 non-null int64
dob_years           21153 non-null int64
education           21153 non-null object
education_id        21153 non-null int64
family_status       21153 non-null object
family_status_id    21153 non-null int64
gender              21153 non-null object
income_type         21153 non-null object
debt                21153 non-null int64
total_income        21153 non-null int64
purpose             21153 non-null object
dtypes: int64(7), object(5)
memory usage: 1.9+ MB


#### Вывод
После проведения лемматизации в столбце "purpose" клиенты разделились на 5 основных категорий по цели получения кредита: свадьба, жилая недвижимость, коммерческая  недвижимость, автомобиль, образование. Это облегчит поиск зависимости возврата кредита в срок от целей получения кредита. Кроме того после повторного поиска дубликатов было выявлено дополнительно 301 дубликат. Данные дубликаты удалены, так как были построчно полной копией, а так же ранее имели значение NAN в столбце "days_employed" и "total_income" одновременно.

### 2.5. Категоризация данных
<a id="2.5"></a>

В данном разделе подготовим таблицы для ответов на вопросы в шаге 3.

Напишем функцию, при помощи которой разделим клиентов на разные возрастные группы.

In [92]:
def level_age(age):
    if age < 30:
        return 'до 30'
    if age >= 30 and age < 40:
        return 'от 30 до 40'
    if age >= 40 and age < 50:
        return 'от 40 до 50'
    if age >= 50 and age < 60:
        return 'от 50 до 60'
    
    return 'от 60'

Добавлим новый столбец в котором при помощи функции обозначим возрастную категорию для каждого клиента.

In [93]:
main_data['age_level'] = main_data['dob_years'].apply(level_age)

Проверим уникальные значения нового столбца

In [94]:
display(main_data['age_level'].value_counts())

от 30 до 40    5683
от 40 до 50    5278
от 50 до 60    4567
до 30          3158
от 60          2467
Name: age_level, dtype: int64

Люди возрастом от 30 до 60 в 2.76 раза чаще обращаются за кредитом чем люди возрастом до 30 лет и от 60 лет.

Создадим новую таблицу в которой удалим ненужные столбцы {'days_employed', 'dob_years', 'family_status_id', 'education_id'} для улучшения читаемости. Выведем превые 5 строк новой таблицы

In [95]:
data_fin = main_data.copy()
data_fin = data_fin.drop(['days_employed', 'dob_years', 'family_status_id', 'education_id'], axis=1)
display(data_fin.head())  # Проверю первые 5 строк

Unnamed: 0,children,education,family_status,gender,income_type,debt,total_income,purpose,age_level
0,1,высшее,женат / замужем,F,сотрудник,0,253875,жилая недвижимость,от 40 до 50
1,1,среднее,женат / замужем,F,сотрудник,0,112080,автомобиль,от 30 до 40
2,0,среднее,женат / замужем,M,сотрудник,0,145885,жилая недвижимость,от 30 до 40
3,3,среднее,женат / замужем,M,сотрудник,0,267628,образование,от 30 до 40
4,0,среднее,гражданский брак,F,пенсионер,0,158616,свадьба,от 50 до 60


Напишем функцию, при помощи которой разделим клиентов на категории в зависимости от уровня дохода.

In [96]:
def level_income(income):
    if income < 36000:
        return 'выше бедности'
    if income >= 36000 and income < 100000:
        return 'нижний средний класс'
    if income >= 100000 and income < 150000:
        return 'предсредний класс'
    if income >= 150000 and income < 250000:
        return 'средний класс'
    if income >= 250000 and income < 500000:
        return 'верхний средний класс'
    if income >= 500000 and income < 1000000:
        return 'состоятельные'
    return 'богатые'

Добавим новый столбец и удалим столбец "total_income". Проверим результат

In [97]:
data_fin['income_level'] = data_fin['total_income'].apply(level_income)
data_fin = data_fin.drop('total_income', axis=1)
display(data_fin['income_level'].value_counts())

средний класс            7161
предсредний класс        6697
нижний средний класс     4406
верхний средний класс    2592
состоятельные             197
выше бедности              75
богатые                    25
Name: income_level, dtype: int64

Создадим словарь, в который поместим список функций для дальнейшего агрегирования.

In [98]:
agg_func = {'debt': ['count', 'sum']}

#### 2.5.1. Таблицы для ответа на вопрос №1
<a id="2.5.1"></a>

##### 2.5.1.1. Выведем таблицу в которой сгруппируем количество детей с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи методов "groupby" и "agg".

In [99]:
child_debt = data_fin.groupby('children').agg(agg_func)

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат.

In [100]:
child_debt['debtors, %'] = child_debt['debt', 'sum'] * 100 / child_debt['debt', 'count']
child_debt['debtors, %'] = child_debt['debtors, %'].astype('int')
display(child_debt.sort_values('debtors, %'))

Unnamed: 0_level_0,debt,debt,"debtors, %"
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
5,9,0,0
0,13897,1062,7
3,329,27,8
1,4762,444,9
2,2116,202,9
4,40,4,10


##### 2.5.1.2. Выведем таблицу в которой сгруппируем возрастную категорию разделенную по количеству детей с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи методов "groupby" и "agg".

In [101]:
ageChild_debt = data_fin.groupby(['age_level', 'children']).agg(agg_func)


Добавим столбец количества клиентов ,имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат

In [102]:
ageChild_debt['debtors, %'] = ageChild_debt['debt', 'sum'] * 100 / ageChild_debt['debt', 'count']
ageChild_debt['debtors, %'] = ageChild_debt['debtors, %'].astype('int')
display(ageChild_debt)

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt,"debtors, %"
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
age_level,children,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
до 30,0,1900,209,11
до 30,1,875,96,10
до 30,2,342,40,11
до 30,3,36,3,8
до 30,4,5,1,20
от 30 до 40,0,2372,228,9
от 30 до 40,1,1896,196,10
от 30 до 40,2,1184,115,9
от 30 до 40,3,198,17,8
от 30 до 40,4,26,1,3


##### 2.5.1.3. Выведем таблицу в которой сгруппируем семейный статус клиента разделенный по количеству детей с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи методов "groupby" и "agg".

In [103]:
fam_statChild_debt = data_fin.groupby(['family_status', 'children']).agg(agg_func)

Добавим столбец количества клиентов ,имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат

In [104]:
fam_statChild_debt['debtors, %'] = fam_statChild_debt[
    'debt', 'sum'] * 100 / fam_statChild_debt['debt', 'count']
fam_statChild_debt['debtors, %'] = fam_statChild_debt['debtors, %'].astype('int')
display(fam_statChild_debt)

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt,"debtors, %"
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
family_status,children,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Не женат / не замужем,0,2245,210,9
Не женат / не замужем,1,449,52,11
Не женат / не замужем,2,84,10,11
Не женат / не замужем,3,8,1,12
Не женат / не замужем,4,2,1,50
в разводе,0,786,55,6
в разводе,1,312,21,6
в разводе,2,83,8,9
в разводе,3,11,1,9
в разводе,4,1,0,0


#### 2.5.2. Таблицы для ответа на вопрос №2
<a id="2.5.2"></a>

##### 2.5.2.1. Выведем таблицу в которой сгруппируем клиентов по семейному положению с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи методов "groupby" и "agg".

In [105]:
fam_stat_debt = data_fin.groupby('family_status').agg(agg_func)

Добавим столбец количества клиентов ,имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат

In [106]:
fam_stat_debt['debtors, %'] = fam_stat_debt['debt', 'sum'] * 100 / fam_stat_debt['debt', 'count']
fam_stat_debt['debtors, %'] = fam_stat_debt['debtors, %'].astype('int')
display(fam_stat_debt.sort_values('debtors, %'))

Unnamed: 0_level_0,debt,debt,"debtors, %"
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
вдовец / вдова,943,63,6
в разводе,1193,85,7
женат / замужем,12104,929,7
Не женат / не замужем,2788,274,9
гражданский брак,4125,388,9


##### 2.5.2.2. Выведем таблицу в которой сгруппируем клиентов по семейному положению, разделенных на категории по возрасту, с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи методов "groupby" и "agg".

In [107]:
fam_statAge_debt = data_fin.groupby(['family_status', 'age_level']).agg(agg_func)

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат

In [108]:
fam_statAge_debt['debtors, %'] = fam_statAge_debt[
    'debt', 'sum'] * 100 / fam_statAge_debt['debt', 'count']
fam_statAge_debt['debtors, %'] = fam_statAge_debt['debtors, %'].astype('int')
display(fam_statAge_debt)

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt,"debtors, %"
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
family_status,age_level,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Не женат / не замужем,до 30,909,103,11
Не женат / не замужем,от 30 до 40,710,85,11
Не женат / не замужем,от 40 до 50,519,46,8
Не женат / не замужем,от 50 до 60,411,31,7
Не женат / не замужем,от 60,239,9,3
в разводе,до 30,96,14,14
в разводе,от 30 до 40,267,20,7
в разводе,от 40 до 50,372,21,5
в разводе,от 50 до 60,301,19,6
в разводе,от 60,157,11,7


##### 2.5.2.3 Выведем таблицу в которой сгруппируем клиентов по семейному положению, разделенных на категории полу, с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи методов "groupby" и "agg".

In [109]:
fam_statGend_debt = data_fin.groupby(['family_status', 'gender']).agg(agg_func)

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат

In [110]:
fam_statGend_debt['debtors, %'] = fam_statGend_debt[
    'debt', 'sum'] * 100 / fam_statGend_debt['debt', 'count']
fam_statGend_debt['debtors, %'] = fam_statGend_debt['debtors, %'].astype('int')
display(fam_statGend_debt)

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt,"debtors, %"
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
family_status,gender,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Не женат / не замужем,F,1714,118,6
Не женат / не замужем,M,1074,156,14
в разводе,F,934,61,6
в разводе,M,259,24,9
вдовец / вдова,F,888,52,5
вдовец / вдова,M,55,11,20
гражданский брак,F,2822,233,8
гражданский брак,M,1303,155,11
женат / замужем,F,7586,529,6
женат / замужем,M,4518,400,8


##### 2.5.2.4 Выведем таблицу в которой сгруппируем клиентов по семейному положению, разделенных на категории по количеству детей, с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи методов "groupby" и "agg".

In [111]:
fam_statChild_debt = data_fin.groupby(['family_status', 'children']).agg(agg_func)

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат

In [112]:
fam_statChild_debt['debtors, %'] = fam_statChild_debt[
    'debt', 'sum'] * 100 / fam_statChild_debt['debt', 'count']
fam_statChild_debt['debtors, %'] = fam_statChild_debt['debtors, %'].astype('int')
display(fam_statChild_debt)

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt,"debtors, %"
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
family_status,children,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Не женат / не замужем,0,2245,210,9
Не женат / не замужем,1,449,52,11
Не женат / не замужем,2,84,10,11
Не женат / не замужем,3,8,1,12
Не женат / не замужем,4,2,1,50
в разводе,0,786,55,6
в разводе,1,312,21,6
в разводе,2,83,8,9
в разводе,3,11,1,9
в разводе,4,1,0,0


#### 2.5.3. Таблицы для ответа на вопрос №3
<a id="2.5.3"></a>

##### 2.5.3.1 Выведем таблицу в которой сгруппируем клиентов по уровню дохода с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи методов "groupby" и "agg".

In [113]:
income_debt = data_fin.groupby(['income_level']).agg(agg_func)

Добавлим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат

In [114]:
income_debt['debtors, %'] = income_debt['debt', 'sum'] * 100 / income_debt['debt', 'count']
income_debt['debtors, %'] = income_debt['debtors, %'].astype('int')
display(income_debt.sort_values('debtors, %'))

Unnamed: 0_level_0,debt,debt,"debtors, %"
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
income_level,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
выше бедности,75,4,5
верхний средний класс,2592,180,6
состоятельные,197,12,6
нижний средний класс,4406,352,7
богатые,25,2,8
предсредний класс,6697,582,8
средний класс,7161,607,8


##### 2.5.3.2 Выведем таблицу в которой сгруппируем клиентов по уровню дохода и типом занятости с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи методов "groupby" и "agg".

In [115]:
incomeType_debt = data_fin.groupby(['income_level', 'income_type']).agg(agg_func)

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат

In [116]:
incomeType_debt['debtors, %'] = incomeType_debt[
    'debt', 'sum'] * 100 / incomeType_debt['debt', 'count']
incomeType_debt['debtors, %'] = incomeType_debt['debtors, %'].astype('int')
display(incomeType_debt)

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt,"debtors, %"
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
income_level,income_type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
богатые,компаньон,15,2,13
богатые,сотрудник,10,0,0
верхний средний класс,госслужащий,194,9,4
верхний средний класс,компаньон,974,59,6
верхний средний класс,пенсионер,263,15,5
верхний средний класс,предприниматель,2,0,0
верхний средний класс,сотрудник,1159,97,8
выше бедности,госслужащий,3,0,0
выше бедности,компаньон,5,0,0
выше бедности,пенсионер,41,2,4


#### 2.5.4. Таблицы для ответа на вопрос №4
<a id="2.5.4"></a>

##### 2.5.4.1 Выведем таблицу в которой сгруппируем клиентов по цели получения кредита с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи методов "groupby" и "agg".

In [117]:
purpose_debt = data_fin.groupby(['purpose']).agg(agg_func)

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат

In [118]:
purpose_debt['debtors, %'] = purpose_debt['debt', 'sum'] * 100 / purpose_debt['debt', 'count']
purpose_debt['debtors, %'] = purpose_debt['debtors, %'].astype('int')
display(purpose_debt.sort_values('debtors, %'))

Unnamed: 0_level_0,debt,debt,"debtors, %"
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
purpose,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
жилая недвижимость,9301,682,7
коммерческая недвижимость,1311,99,7
свадьба,2306,186,8
автомобиль,4271,402,9
образование,3964,370,9


##### 2.5.4.2 Выведем таблицу в которой сгруппируем клиентов по цели получения кредита, разделенных по возрастным категориям, с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи методов "groupby" и "agg".

In [119]:
purposeAge_debt = data_fin.groupby(['purpose', 'age_level']).agg(agg_func)

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат

In [120]:
purposeAge_debt['debtors, %'] = purposeAge_debt[
    'debt', 'sum'] * 100 / purposeAge_debt['debt', 'count']
purposeAge_debt['debtors, %'] = purposeAge_debt['debtors, %'].astype('int')
display(purposeAge_debt)

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt,"debtors, %"
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
purpose,age_level,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
автомобиль,до 30,595,76,12
автомобиль,от 30 до 40,1151,137,11
автомобиль,от 40 до 50,1079,91,8
автомобиль,от 50 до 60,923,65,7
автомобиль,от 60,523,33,6
жилая недвижимость,до 30,1419,144,10
жилая недвижимость,от 30 до 40,2504,214,8
жилая недвижимость,от 40 до 50,2335,158,6
жилая недвижимость,от 50 до 60,1999,121,6
жилая недвижимость,от 60,1044,45,4


#### 2.5.5. Вывод
<a id="2.5.5"></a>

В данном разделе мы разделили клиентов на разные возрастные группы и на разные категории в зависимости от уровня дохода. После этого подготовили необходимые таблицы для раздела №3.

## 3. Влияние различных факторов на факт погашения кредита в срок
<a id="3"></a>

### 3.1. Есть ли зависимость между наличием детей и возвратом кредита в срок?
<a id="3.1"></a>

Для формирования вывода повторно выведем необходимые таблицы, но с использованием метода pivot_table

                                        Таблица 1

Выведем сводную таблицу в которой сгруппируем количество детей с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи метода pivot_table. Таблицу сохраним в переменной "child_debt_pivot"

In [121]:
child_debt_pivot = data_fin.pivot_table(
    index='children', values='debt', aggfunc={'debt': ['sum', 'count']})

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат.

In [122]:
child_debt_pivot['debtors, %'] = child_debt_pivot['sum'] * 100 / child_debt_pivot['count']
display(child_debt_pivot.sort_values(by='debtors, %'))

Unnamed: 0_level_0,count,sum,"debtors, %"
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,9,0,0.0
0,13897,1062,7.641937
3,329,27,8.206687
1,4762,444,9.323814
2,2116,202,9.546314
4,40,4,10.0


                                        Таблица 2

Выведем сводную таблицу в которой сгруппируем возрастную категорию разделенную по количеству детей с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи метода pivot_table. Таблицу сохраним в переменной "ageChild_debt_pivot"

In [123]:
ageChild_debt_pivot = data_fin.pivot_table(
    index=['children', 'age_level'], values='debt', aggfunc={'debt': ['sum', 'count']})

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат.

In [124]:
ageChild_debt_pivot['debtors, %'] = ageChild_debt_pivot['sum'] * 100 / ageChild_debt_pivot['count']
display(ageChild_debt_pivot)

Unnamed: 0_level_0,Unnamed: 1_level_0,count,sum,"debtors, %"
children,age_level,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,до 30,1900,209,11.0
0,от 30 до 40,2372,228,9.612142
0,от 40 до 50,3340,247,7.39521
0,от 50 до 60,3985,261,6.549561
0,от 60,2300,117,5.086957
1,до 30,875,96,10.971429
1,от 30 до 40,1896,196,10.337553
1,от 40 до 50,1350,108,8.0
1,от 50 до 60,486,37,7.613169
1,от 60,155,7,4.516129


                                        Таблица 3

Выведем сводную таблицу в которой сгруппируем семейный статус клиента разделенный по количеству детей с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи метода pivot_table. Таблицу сохраним в переменной "fam_statChild_debt_pivot"

In [125]:
fam_statChild_debt_pivot = data_fin.pivot_table(
    index=['children', 'family_status'], values='debt', aggfunc={'debt': ['sum', 'count']})

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат.

In [126]:
fam_statChild_debt_pivot['debtors, %'] = fam_statChild_debt_pivot[
    'sum'] * 100 /fam_statChild_debt_pivot['count']
display(fam_statChild_debt_pivot)

Unnamed: 0_level_0,Unnamed: 1_level_0,count,sum,"debtors, %"
children,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Не женат / не замужем,2245,210,9.35412
0,в разводе,786,55,6.997455
0,вдовец / вдова,835,53,6.347305
0,гражданский брак,2714,229,8.43773
0,женат / замужем,7317,515,7.038404
1,Не женат / не замужем,449,52,11.581292
1,в разводе,312,21,6.730769
1,вдовец / вдова,77,7,9.090909
1,гражданский брак,991,118,11.907164
1,женат / замужем,2933,246,8.387317


#### Вывод

На основании таблицы 1 ,если рассматривать количество клиентов с задолжностью по возврату кредитов только лишь в разрезе количества детей и не учитывать клиентов с 5-ю детьми, так как их слишком мало для анализа, то можно сделать следующий вывод: чаще всего возвращают кредит в срод клиенты не имеющие детей, чуть реже клиенты с 1-м до 3-х детей, и реже всего возвращают в срок возвращают клиенты с 4-мя детьми. Но разница между клиентами с 4-мя детьми и клиентами без детей составляет всего 2%.

На основании таблицы 2, если рассматривать количество клиентов с задолжностью по возврату кредитов в разрезе количества детей с разбивкой на возрастные категории можно сделать следующий вывод: в возрастной категории до 30 лет чаще всего возвращают кредит в срок клиенты с 3-мя детьми, чуть реже клиенты с 0-1-2 количеством детей, более чем в два раза реже возвращают в срок клиенты с 4-мя детьми; в возрастной категории от 30 до 40 лет можно выделить клиентов с 4-мя и 5-ю детьми, они возвращают в срок почти всегда и всегда соответственно, а клиенты с 0-1-2-3 количеством детей находятся примерно на одном уровне, около 9% процентов из них имеют задержки; далее по возрастным категориям примерно похожая ситуация, сложно выделить определенную группу клиентов разбивая их на возрастные категории и по количеству детей. Можно лишь выделить только зависимость от возраста, так как с повышением возраста клиенты начинают чаще возвращать кредит в срок.

На основании таблицы 3, если рассматривать количество клиентов с задолжностью по возврату кредитов в разрезе количества детей с разбивкой на категории по семейному положению можно сделать следующий вывод: реже всего возвращают кредит в срок клиенты относящиеся к группам "Не женат / не замужем" и "гражданский брак", и чем больше у них детей, тем еще реже они его возвращают в срок. Чуть более лучшая, но схожая ситуация, у клиентов группы "женат / замужем".

Подводя итог, можно сказать, что зависимость возврата кредитов в срок от количества детей все же имеется, хоть и не явно выраженная. Чем меньше у клиента имеется детей, тем больше шанс что он вернет кредит в срок.

### 3.2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
<a id="3.2"></a>

Для формирования вывода повторно выведем необходимые таблицы, но с использованием метода pivot_table

                                        Таблица 4

Выведем сводную таблицу в которой сгруппируем клиентов по семейному положению с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи метода pivot_table. Таблицу сохраним в переменной "fam_stat_debt_pivot"

In [127]:
fam_stat_debt_pivott = data_fin.pivot_table(
    index=['family_status'], values='debt', aggfunc={'debt': ['sum', 'count']})

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат.

In [128]:
fam_stat_debt_pivott['debtors, %'] = fam_stat_debt_pivott[
    'sum'] * 100 /fam_stat_debt_pivott['count']
display(fam_stat_debt_pivott.sort_values(by='debtors, %'))

Unnamed: 0_level_0,count,sum,"debtors, %"
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,943,63,6.680806
в разводе,1193,85,7.124895
женат / замужем,12104,929,7.675149
гражданский брак,4125,388,9.406061
Не женат / не замужем,2788,274,9.827834


                                        Таблица 5

Выведем сводную таблицу в которой сгруппируем клиентов по семейному положению, разделенных на категории по возрасту, с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи метода pivot_table. Таблицу сохраним в переменной "fam_statAge_debt_pivot"

In [129]:
fam_statAge_debt_pivot = data_fin.pivot_table(
    index=['family_status', 'age_level'], values='debt', aggfunc={'debt': ['sum', 'count']})

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат.

In [130]:
fam_statAge_debt_pivot['debtors, %'] = fam_statAge_debt_pivot[
    'sum'] * 100 /fam_statAge_debt_pivot['count']
display(fam_statAge_debt_pivot)

Unnamed: 0_level_0,Unnamed: 1_level_0,count,sum,"debtors, %"
family_status,age_level,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Не женат / не замужем,до 30,909,103,11.331133
Не женат / не замужем,от 30 до 40,710,85,11.971831
Не женат / не замужем,от 40 до 50,519,46,8.863198
Не женат / не замужем,от 50 до 60,411,31,7.542579
Не женат / не замужем,от 60,239,9,3.76569
в разводе,до 30,96,14,14.583333
в разводе,от 30 до 40,267,20,7.490637
в разводе,от 40 до 50,372,21,5.645161
в разводе,от 50 до 60,301,19,6.312292
в разводе,от 60,157,11,7.006369


                                        Таблица 6

Выведем сводную таблицу в которой сгруппируем клиентов по семейному положению, разделенных на категории полу, с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи метода pivot_table. Таблицу сохраним в переменной "fam_statGend_debt_pivot"

In [131]:
fam_statGend_debt_pivot = data_fin.pivot_table(
    index=['gender', 'family_status'], values='debt', aggfunc={'debt': ['sum', 'count']})

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат.

In [132]:
fam_statGend_debt_pivot['debtors, %'] = fam_statGend_debt_pivot[
    'sum'] * 100 /fam_statGend_debt_pivot['count']
display(fam_statGend_debt_pivot)

Unnamed: 0_level_0,Unnamed: 1_level_0,count,sum,"debtors, %"
gender,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
F,Не женат / не замужем,1714,118,6.884481
F,в разводе,934,61,6.531049
F,вдовец / вдова,888,52,5.855856
F,гражданский брак,2822,233,8.256556
F,женат / замужем,7586,529,6.973372
M,Не женат / не замужем,1074,156,14.52514
M,в разводе,259,24,9.266409
M,вдовец / вдова,55,11,20.0
M,гражданский брак,1303,155,11.895625
M,женат / замужем,4518,400,8.853475


#### Вывод

На основании таблицы 4 ,если рассматривать количество клиентов с задолжностью по возврату кредитов только лишь в разрезе семейного положения, можно сделать следующие выводы: чаще всего в срок возвращают кредит клиенты категории "вдовец / вдова", чуть более реже клиенты категорий "в разводе" и "женат / замужем", и заметно реже в сравнении с первой категорией клиенты категорий "Не женат / не замужем" и "гражданский брак", на 3% хуже.

На основании таблицы 5 ,если рассматривать количество клиентов с задолжностью по возврату кредитов в разрезе семейного положения с разбивкой на возрастные категории, можно сделать следующий вывод: кроме категории "вдовец / вдова" у всех наблюдается одинаковая закономерность, вне зависимости от семейного положения, чем младше клиент, тем реже он выплачивает кредит в срок. В категории "вдовец / вдова" наблюдается немного обратная ситуация.

На основании таблицы 6 ,если рассматривать количество клиентов с задолжностью по возврату кредитов в разрезе семейного положения с разбивкой половую принадлежность, можно сделать следующий вывод: во всех категориях наблюдается одна закономерность, клиенты мужского пола гораздо реже выплачивают кредит в срок, и ярче всего это наблюдается в категориях "вдовец / вдова" и "Не женат / не замужем".

Подводя итог, можно сказать,  что зависимость между семейным положением и возвратом кредита в срок имеется, но гораздо сильнее выраженная у клиентов мужского пола.


### 3.3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
<a id="3.3"></a>

Для формирования вывода повторно выведем необходимые таблицы, но с использованием метода pivot_table

                                        Таблица 7

Выведем сводную таблицу в которой сгруппируем клиентов по уровню дохода с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи метода pivot_table. Таблицу сохраним в переменной "income_debt_pivot"

In [133]:
income_debt_pivot = data_fin.pivot_table(
    index=['income_level'], values='debt', aggfunc={'debt': ['sum', 'count']})

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат.

In [134]:
income_debt_pivot['debtors, %'] = income_debt_pivot[
    'sum'] * 100 / income_debt_pivot['count']
display(income_debt_pivot.sort_values(by='debtors, %'))

Unnamed: 0_level_0,count,sum,"debtors, %"
income_level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
выше бедности,75,4,5.333333
состоятельные,197,12,6.091371
верхний средний класс,2592,180,6.944444
нижний средний класс,4406,352,7.989106
богатые,25,2,8.0
средний класс,7161,607,8.47647
предсредний класс,6697,582,8.690458


                                        Таблица 8

Выведем сводную таблицу в которой сгруппируем клиентов по уровню дохода и типом занятости с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи метода pivot_table. Таблицу сохраним в переменной "incomeType_debt_pivot"

In [135]:
incomeType_debt_pivot = data_fin.pivot_table(
    index=['income_level', 'income_type'], values='debt', aggfunc={'debt': ['sum', 'count']})

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат.

In [136]:
incomeType_debt_pivot['debtors, %'] = incomeType_debt_pivot[
    'sum'] * 100 / incomeType_debt_pivot['count']
display(incomeType_debt_pivot)

Unnamed: 0_level_0,Unnamed: 1_level_0,count,sum,"debtors, %"
income_level,income_type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
богатые,компаньон,15,2,13.333333
богатые,сотрудник,10,0,0.0
верхний средний класс,госслужащий,194,9,4.639175
верхний средний класс,компаньон,974,59,6.057495
верхний средний класс,пенсионер,263,15,5.703422
верхний средний класс,предприниматель,2,0,0.0
верхний средний класс,сотрудник,1159,97,8.369284
выше бедности,госслужащий,3,0,0.0
выше бедности,компаньон,5,0,0.0
выше бедности,пенсионер,41,2,4.878049


#### Вывод

На основании таблицы 7, если рассматривать количество клиентов с задолжностью по возврату кредитов только лишь в разрезе уровня дохода, можно сделать следующий вывод: сложно выделить определенную категорию клиентов, нет определенной закономерности в зависимости от уровня доходов, можно лишь выделить категорию "выше бедности", они чаще всего возвращают кредит в срок, но их количество слишком мало чтобы сказать с уверенностью что просматривается зависимость только лишь от показателя уровня дохода.

На основании таблицы 8, если рассматривать количество клиентов с задолжностью по возврату кредитов в разрезе уровня дохода с разделением на категори по типу занятости, можно сделать следующий вывод: в разрезе уровня дохода не замечается особо выделенных категорий, но в разрезе по типу занятости видно, что заметно реже выплачивают кредит в срок клиенты в категорий "компаньон" и "сотрудник".

Подводя итог, можно сказать, что зависисимости между уровнем дохода и возвратом кредита в срок нет, но четко просматривается зависимость от типа занятости.

### 3.4. Как разные цели кредита влияют на его возврат в срок?
<a id="3.4"></a>

Для формирования вывода повторно выведем необходимые таблицы, но с использованием метода pivot_table

                                        Таблица 9

Выведем сводную таблицу в которой сгруппируем клиентов по цели получения кредита с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи метода pivot_table. Таблицу сохраним в переменной "purpose_debt_pivot"

In [137]:
purpose_debt_pivot = data_fin.pivot_table(
    index=['purpose'], values='debt', aggfunc={'debt': ['sum', 'count']})

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат.

In [138]:
purpose_debt_pivot['debtors, %'] = purpose_debt_pivot[
    'sum'] * 100 / purpose_debt_pivot['count']
display(purpose_debt_pivot.sort_values(by='debtors, %'))

Unnamed: 0_level_0,count,sum,"debtors, %"
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
жилая недвижимость,9301,682,7.332545
коммерческая недвижимость,1311,99,7.551487
свадьба,2306,186,8.065915
образование,3964,370,9.334006
автомобиль,4271,402,9.412316


                                        Таблица 10

Выведем сводную таблицу в которой сгруппируем клиентов по цели получения кредита, разделенных по возрастным категориям, с количеством таких клиентов и суммой клиентов, имевших задолжность по возврату кредитов, при помощи метода pivot_table. Таблицу сохраним в переменной "purposeAge_debt_pivot"

In [139]:
purposeAge_debt_pivot = data_fin.pivot_table(
    index=['purpose', 'age_level'], values='debt', aggfunc={'debt': ['sum', 'count']})

Добавим столбец количества клиентов, имевших задолжность по возврату кредита в срок, по каждой категории, в процентом соотношении от общего количества клиентов. Выведем результат.

In [140]:
purposeAge_debt_pivot['debtors, %'] = purposeAge_debt_pivot[
    'sum'] * 100 / purposeAge_debt_pivot['count']
display(purposeAge_debt_pivot)

Unnamed: 0_level_0,Unnamed: 1_level_0,count,sum,"debtors, %"
purpose,age_level,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
автомобиль,до 30,595,76,12.773109
автомобиль,от 30 до 40,1151,137,11.902693
автомобиль,от 40 до 50,1079,91,8.433735
автомобиль,от 50 до 60,923,65,7.042254
автомобиль,от 60,523,33,6.309751
жилая недвижимость,до 30,1419,144,10.147992
жилая недвижимость,от 30 до 40,2504,214,8.546326
жилая недвижимость,от 40 до 50,2335,158,6.766595
жилая недвижимость,от 50 до 60,1999,121,6.053027
жилая недвижимость,от 60,1044,45,4.310345


#### Вывод

На основании таблицы 9 ,если рассматривать количество клиентов с задолжностью по возврату кредитов только лишь в разрезе целей кредита, можно сделать следующий вывод: просматривается минимальная зависимость, чаще всего платят клиенты с целью кредита на недвижимость, немного реже на свадьбу, и еще реже на автомобиль и образование. Но разница между крайними целями всего 2 %.

На основании таблицы 10 ,если рассматривать количество клиентов с задолжностью по возврату кредитов  в разрезе целей кредита с разделением на возрастные группы, можно увидеть ту же закономерность. Но кроме этого отчетливо видно, что чем моложе клиент, тем реже он выплачивает кредит в срок.

Подводя итог, можно сказать, что разные цели кредита влияют на его возврат в срок не значительно, горазно ярче зависимость видна при разделении клиентов по возрастным категориям.

## 4. Заключение
<a id="4"></a>

В части 1 изучили общую информацию, подробный вывод сделан в пункте 1.2. В части 2 выполнили предобработку данных, подробный вывод сделан после каждого подпункта. В части 3 ответили на 4 поставленных вопроса, подробный вывод сделан после каждого подпункта.

Зависимость возврата кредитов в срок от количества детей все же имееется, хоть и не явно выраженная.
Чем больше у клиента детей, тем меньше вероятность что клиент вернет кредит в срок.
Зависимость между семейным положением и возвратом кредита в срок имеется, но гораздо сильнее выраженная у клиентов мужского пола. Чаще всего в срок возвращают кредит клиенты категории "вдовец / вдова", чуть более реже клиенты категорий "в разводе" и "женат / замужем", и заметно реже в сравнении с первой категорией клиенты категорий "Не женат / не замужем" и "гражданский брак", на 3% хуже.
Зависисимости между уровнем дохода и возвратом кредита в срок нет, но четко просматривается зависимость от типа занятости. Заметно реже выплачивают кредит в срок клиенты в категорий "компаньон" и "сотрудник".
Разные цели кредита влияют на его возврат в срок, просматривается минимальная зависимость, чаще всего платят клиенты с целью кредита на недвижимость, немного реже на свадьбу, и еще реже на автомобиль и образование. Но разница между крайними целями всего 2 %. Но кроме этого отчетливо видно, что чем моложе клиент, тем реже он выплачивает кредит в срок.