# Исследование надежности заемщиков банка <b id='intro'></b>

Согласно данным кредитного отдела банка: /datasets/data.csv необходимо сделать выводы о том:
* Есть ли зависимость между наличием детей и возвратом кредита в срок
* Есть ли зависимость между семейным положением и возвратом кредита в срок
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок
* Как разные цели кредита влияют на его возврат в срок.



## Шаг 1 Общая информация <b id='step_1'></b>

Откроем базу данных и ознакомимся с ними.

In [1]:
import pandas as pd
from IPython.display import display
try:
    data=pd.read_csv('C:/Users/sicho/Downloads/data.csv')
except:
    data=pd.read_csv('/datasets/data.csv')

In [2]:
try:
    from pymystem3 import Mystem
    m = Mystem()
except:
    from nltk.stem import SnowballStemmer
    russian_stemmer = SnowballStemmer('russian') 

In [3]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


База данных представляет собой таблицу со столбцами:
* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита
Посмотрим общую информацию о таблице данных:

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Определим наличие и количество пропусков данных:

In [5]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Видим одинаковое количество пропусков в данных в столбцах с информацией о днях занятости и величине ежемесячного дохода.
2174 пропуска - 10% от всего датафрейма. Это достаточно много, поэтому удалять данные из массива нельзя.
Можно предположить, что эти пропуски могли появиться, если при подаче заявки потенциальный клиент не мог подтвердить свой стаж, поэтому система ввода информации не заполняла ежемесячный доход. Или наоборот, если потенциальный клиент не мог официально подтвердить свой доход, то система ввода не заполняла сведения о стаже.

Также в столбцах присутвуют данные, написанные в вверхнем и нижнем регистрах, с отрицательными значениями, которые могли образоваться из-за особенностей ввода информации и/или человеческого фактора.

Определим тип переменных, содержащихся в столбцах:
* Категориальные переменные - education, family_status,gender, income_type, purpose
* Количественные переменные - children, days_employed, dob_years, education_id, family_status_id, debt, total_income

Для оценки данных определим уникальные значения в категориальных переменных и проанализируем их:

In [6]:
display('Уникальные значения столбца "education":',data['education'].unique())

'Уникальные значения столбца "education":'

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [7]:
display('Уникальные значения столбца "family_status":',data['family_status'].unique())

'Уникальные значения столбца "family_status":'

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [8]:
display('Уникальные значения столбца "gender":',data['gender'].unique())

'Уникальные значения столбца "gender":'

array(['F', 'M', 'XNA'], dtype=object)

In [9]:
display('Уникальные значения столбца "income_type":',data['income_type'].unique())

'Уникальные значения столбца "income_type":'

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [10]:
display('Уникальные значения столбца "purpose":',data['purpose'].unique())

'Уникальные значения столбца "purpose":'

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Видим в данных переменные, написанные разным регистром, несуществющий пол (XNA) и большое количество синонимов в столбце "purpose".

In [60]:
columns_set = ['purpose', 'income_type', 'gender', 'education', 'family_status']
for column_name in columns_set:
    display(f'Уникальные значения столбца "{column_name}":', data[column_name].unique())
    print(120*'-')

'Уникальные значения столбца "purpose":'

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

------------------------------------------------------------------------------------------------------------------------


'Уникальные значения столбца "income_type":'

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

------------------------------------------------------------------------------------------------------------------------


'Уникальные значения столбца "gender":'

array(['f', 'm'], dtype=object)

------------------------------------------------------------------------------------------------------------------------


'Уникальные значения столбца "education":'

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

------------------------------------------------------------------------------------------------------------------------


'Уникальные значения столбца "family_status":'

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

------------------------------------------------------------------------------------------------------------------------


Определим в столбцах с количественными переменными уникальные значения там, где могут появиться ошибки и искажения, влияющие на дальнейшую обработку данных и исследование.
Проверим, какого возраста потенциальные клиенты и сколько их.

In [12]:
display('Уникальные значения столбца "dob_years" и их количество:',data.groupby('dob_years')['dob_years'].count())

'Уникальные значения столбца "dob_years" и их количество:'

dob_years
0     101
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

Видим, что 101 клиент с возрастом "0", чего не может быть, и установить возраст не представляется возможным. Также доля таких клиентов крайне мала в базе данных. Поэтому эти строки требуется удалить на этапе предобработки данных.

In [13]:
display('Уникальные значения столбца "children" и их количество:',data.groupby('children')['children'].count())

'Уникальные значения столбца "children" и их количество:'

children
-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: children, dtype: int64

Видим, что есть количество детей "-1", признаем это ошибкой ввода.
Количество детей "20" признаем условным обозначением количества детей более 5.

In [14]:
display('Уникальные значения столбца "debt" и их количество:',data.groupby('debt')['debt'].count())

'Уникальные значения столбца "debt" и их количество:'

debt
0    19784
1     1741
Name: debt, dtype: int64

В столбце "debt" подозрительных данных нет.

Столбцы "family_status_id" и " education_id" представляют собой числовые обозначения соответсвующих столбцов без "id". Эффективно будет сначала произвести обработку данных, после чего составить справочники значений.

## Вывод : 
На основе предварительного изучения данных видим, что:
* около 10% данных содержат в строках пропущенные значения, причем видна взаимосвязь пропусков в столбцах с указанием стажа и ежемесячного дохода;
* данные записаны в разных регистрах;
* некоторые количественные данные имеют отрицательное значение, что связано с особенностями ввода;
* есть данные, которые физически невозможны ( возраст клиентов "0", не указан пол, очень большой стаж).


На основе данных выводов предлагаю на этапе предобработки данных:
* строки с пропущенными данными заполнить медианными значениями по группам клиентам. Ввести категории клиентов по возрасту, семейному положению и т.д.;
* привести данные к единому регистру;
* отрицательные значения изменить методом abs();
* строки с физически нереальными данными удалить с учетом их малой доли в общем объеме;
* в строках о количестве детей произвести замену значений.

## Шаг 2 . Предобработка данных <b id='step_2'></b>

### Обработка явных дубликатов <b id='step_2.1'></b>

Существенным недостатком данных является попуск значений в столбцах со стажем и ежемесячным доходом.
Для корректного заполнения этих значений средними или медианными значениями сначала необходимо определить, есть ли явные и неявные дубликаты, удалить их, чтобы не оказывать влияние на расчет среднего или медианного значения.
Определим количество явных дубликатов.

In [15]:
data.duplicated().sum()

54

Приведем значения данных к единому нижнему регистру.

In [16]:
data['education']=data['education'].str.lower()
data['family_status']=data['family_status'].str.lower()
data['gender']=data['gender'].str.lower()
data['income_type']=data['income_type'].str.lower()
data['purpose']=data['purpose'].str.lower()
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,m,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,f,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,среднее,1,женат / замужем,0,m,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,высшее,0,гражданский брак,1,f,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,m,сотрудник,0,144425.938277,покупка жилья для семьи


Снова посчитаем количество дубликатов:

In [17]:
data.duplicated().sum()

71

Все числовые значения в таблице сделаем положительными:

In [18]:
data['children']=data['children'].abs()
data['days_employed']=data['days_employed'].abs()
data['total_income']=data['total_income'].abs()

Изменим значения в столбце 'children':

In [19]:
data['children']=data['children'].replace(20,6)

In [20]:
data.groupby('children')['children'].count()

children
0    14149
1     4865
2     2055
3      330
4       41
5        9
6       76
Name: children, dtype: int64

In [21]:
data.duplicated().sum()

71

Удалим строки с данными о клиентах в столбце "dob_years" равные "0":

In [22]:
data=data[data['dob_years']!= 0]
data.groupby('dob_years')['dob_years'].count()

dob_years
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

Также удалим строки с неоднозначным полом ('xna'):

In [23]:
data=data[data['gender']!= 'xna']
data.groupby('gender')['gender'].count()

gender
f    14164
m     7259
Name: gender, dtype: int64

Снова проверим количество явных дубликатов:

In [24]:
data.duplicated().sum()

71

Удалим дубликаты и проверим, все ли удалились:

In [25]:
data=data.drop_duplicates().reset_index(drop=True)

In [26]:
data.duplicated().sum()

0

In [27]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,m,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,f,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,среднее,1,женат / замужем,0,m,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,высшее,0,гражданский брак,1,f,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,m,сотрудник,0,144425.938277,покупка жилья для семьи


**Вывод:** Видим, что при приведении данных к единому регистру, появляются новые явные дубликаты.
После удаления явных дубликатов, замене отрицательных значений данные приобрели более читабельный и понятный вид.
Приступим к обработке пропусков в данных.

In [28]:
data['income_type_id'] = data['income_type'].map(
    {'студент': 0, 'безработный': 1, 'пенсионер': 2,
                    'в декрете':3, 'госслужащий': 4, 'сотрудник':5, 'компаньон':6, 'предприниматель':7} )
data.corr()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income,income_type_id
children,1.0,-0.222823,-0.295223,-0.02379,-0.147744,0.024706,0.028979,0.194264
days_employed,-0.222823,1.0,0.608843,0.080172,0.003051,-0.049048,-0.135887,-0.918997
dob_years,-0.295223,0.608843,1.0,0.064745,-0.068807,-0.071579,-0.055973,-0.561589
education_id,-0.02379,0.080172,0.064745,1.0,0.009524,0.052786,-0.179107,-0.090397
family_status_id,-0.147744,0.003051,-0.068807,0.009524,1.0,0.020686,-0.008971,0.00805
debt,0.024706,-0.049048,-0.071579,0.052786,0.020686,1.0,-0.012415,0.035189
total_income,0.028979,-0.135887,-0.055973,-0.179107,-0.008971,-0.012415,1.0,0.177062
income_type_id,0.194264,-0.918997,-0.561589,-0.090397,0.00805,0.035189,0.177062,1.0


Предполагаю, что очень большой стаж мог образоваться из-за совмещения деятельности или статуса клиента. Например, у него инвалидность (это тоже стаж) и при этом он работает. Интересно, что большой стаж имеют в основном пенсионеры.

Напишем функцию для обработки экстремально больших значений стажа. 

Так как значение эктермально большие, в расчетах возьмеме укрупненно 365 дней для перевода дней стажа в года, а далее сравним с возрастом. Заменим большое значение на `возраст - 14 лет`, если бы клиент начал работать с 14 лет.

In [29]:
def years_employed(row):
    years_emp=row['days_employed']/365
    age=row['dob_years']
    if (age-years_emp)>=14:
        return years_emp
    else:
        return (age-14)
data['days_employed']=data.apply(years_employed, axis = 1)

In [30]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,income_type_id
0,1,23.116912,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875.639453,покупка жилья,5
1,1,11.02686,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080.014102,приобретение автомобиля,5
2,0,15.406637,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885.952297,покупка жилья,5
3,3,11.300677,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628.550329,дополнительное образование,5
4,0,39.0,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616.07787,сыграть свадьбу,2
5,0,2.537495,27,высшее,0,гражданский брак,1,m,компаньон,0,255763.565419,покупка жилья,6
6,0,7.888225,43,высшее,0,женат / замужем,0,f,компаньон,0,240525.97192,операции с жильем,6
7,0,0.418574,50,среднее,1,женат / замужем,0,m,сотрудник,0,135823.934197,образование,5
8,2,18.985932,35,высшее,0,гражданский брак,1,f,сотрудник,0,95856.832424,на проведение свадьбы,5
9,0,5.996593,41,среднее,1,женат / замужем,0,m,сотрудник,0,144425.938277,покупка жилья для семьи,5


###  Обработка пропусков <b id='step_2.2'></b>

Заменим отсутвующие значения в столбцах 'days_employed' и 'total_income' медианными значениями.  <b id='median'></b>

In [31]:
days_employed_median=data['days_employed'].median()
data['days_employed']=data['days_employed'].fillna(value=days_employed_median)
total_income_median=data['total_income'].median()
data['total_income']=data['total_income'].fillna(value=total_income_median)
data.head(15) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,income_type_id
0,1,23.116912,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875.639453,покупка жилья,5
1,1,11.02686,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080.014102,приобретение автомобиля,5
2,0,15.406637,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885.952297,покупка жилья,5
3,3,11.300677,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628.550329,дополнительное образование,5
4,0,39.0,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616.07787,сыграть свадьбу,2
5,0,2.537495,27,высшее,0,гражданский брак,1,m,компаньон,0,255763.565419,покупка жилья,6
6,0,7.888225,43,высшее,0,женат / замужем,0,f,компаньон,0,240525.97192,операции с жильем,6
7,0,0.418574,50,среднее,1,женат / замужем,0,m,сотрудник,0,135823.934197,образование,5
8,2,18.985932,35,высшее,0,гражданский брак,1,f,сотрудник,0,95856.832424,на проведение свадьбы,5
9,0,5.996593,41,среднее,1,женат / замужем,0,m,сотрудник,0,144425.938277,покупка жилья для семьи,5


Избавимся от дробных значений в таблице в связи с их ненадобностью и приведению таблицы к более приятному виду:

In [32]:
data['days_employed']=data['days_employed'].astype('int')
data['total_income']=data['total_income'].astype('int')

In [33]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 13 columns):
children            21352 non-null int64
days_employed       21352 non-null int64
dob_years           21352 non-null int64
education           21352 non-null object
education_id        21352 non-null int64
family_status       21352 non-null object
family_status_id    21352 non-null int64
gender              21352 non-null object
income_type         21352 non-null object
debt                21352 non-null int64
total_income        21352 non-null int64
purpose             21352 non-null object
income_type_id      21352 non-null int64
dtypes: int64(8), object(5)
memory usage: 2.1+ MB


In [34]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,income_type_id
0,1,23,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875,покупка жилья,5
1,1,11,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080,приобретение автомобиля,5
2,0,15,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885,покупка жилья,5
3,3,11,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628,дополнительное образование,5
4,0,39,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616,сыграть свадьбу,2
5,0,2,27,высшее,0,гражданский брак,1,m,компаньон,0,255763,покупка жилья,6
6,0,7,43,высшее,0,женат / замужем,0,f,компаньон,0,240525,операции с жильем,6
7,0,0,50,среднее,1,женат / замужем,0,m,сотрудник,0,135823,образование,5
8,2,18,35,высшее,0,гражданский брак,1,f,сотрудник,0,95856,на проведение свадьбы,5
9,0,5,41,среднее,1,женат / замужем,0,m,сотрудник,0,144425,покупка жилья для семьи,5


**Вывод:** Теперь в данных отсутствуют пропуски, ненужные дробные части в количественных переменных. Таблица приобрела понятный, читаемый вид.

Однако для ответов на поставленные вопросы необходимо заменить синонимичные выражения в столбце "purpose". Для этого воспользуемся методами лемматизации.

##  Лемматизация данных <b id='step_2.3'></b>

Для нахождения ответов на поставленные [вопросы исследования](#intro) необходимо заменить синонимичные выражения в столбце "purpose". Для начала рассмотрим столбец подробнее, группируем данные по уникальным значениям:

In [35]:
data['purpose'].value_counts()

свадьба                                   786
на проведение свадьбы                     764
сыграть свадьбу                           760
операции с недвижимостью                  672
покупка коммерческой недвижимости         658
покупка жилья для сдачи                   649
операции с коммерческой недвижимостью     648
операции с жильем                         646
жилье                                     640
покупка жилья                             640
покупка жилья для семьи                   637
строительство собственной недвижимости    633
недвижимость                              629
операции со своей недвижимостью           627
строительство жилой недвижимости          621
строительство недвижимости                619
покупка своего жилья                      619
покупка недвижимости                      617
ремонт жилью                              605
покупка жилой недвижимости                603
на покупку своего автомобиля              502
заняться высшим образованием      

In [36]:
data['purpose_stem']=data['purpose'].apply(m.lemmatize)
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,income_type_id,purpose_stem
0,1,23,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875,покупка жилья,5,"[покупка, , жилье, \n]"
1,1,11,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080,приобретение автомобиля,5,"[приобретение, , автомобиль, \n]"
2,0,15,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885,покупка жилья,5,"[покупка, , жилье, \n]"
3,3,11,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628,дополнительное образование,5,"[дополнительный, , образование, \n]"
4,0,39,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616,сыграть свадьбу,2,"[сыграть, , свадьба, \n]"
5,0,2,27,высшее,0,гражданский брак,1,m,компаньон,0,255763,покупка жилья,6,"[покупка, , жилье, \n]"
6,0,7,43,высшее,0,женат / замужем,0,f,компаньон,0,240525,операции с жильем,6,"[операция, , с, , жилье, \n]"
7,0,0,50,среднее,1,женат / замужем,0,m,сотрудник,0,135823,образование,5,"[образование, \n]"
8,2,18,35,высшее,0,гражданский брак,1,f,сотрудник,0,95856,на проведение свадьбы,5,"[на, , проведение, , свадьба, \n]"
9,0,5,41,среднее,1,женат / замужем,0,m,сотрудник,0,144425,покупка жилья для семьи,5,"[покупка, , жилье, , для, , семья, \n]"


Напишем функцию для получения стеммера слов в столбце "purpose":

In [37]:
def lemma(word):
    lemmes = m.lemmatize(word)
    for lem in lemmes:
        
        if 'свадьба' in lemmes:
            return 'свадьба'
        if 'жилье' in lemmes:
            return 'недвижимость'
        if 'недвижимость' in lemmes:
            return 'недвижимость'
        if 'автомобиль' in lemmes:
            return 'автомобиль'
        if 'образование' in lemmes:
            return 'образование'


Создадим новый столбец 'purpose_stem', применив функцию 'stemma':

In [38]:
data['purpose_stem']=data['purpose'].apply(lemma)
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,income_type_id,purpose_stem
0,1,23,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875,покупка жилья,5,недвижимость
1,1,11,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080,приобретение автомобиля,5,автомобиль
2,0,15,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885,покупка жилья,5,недвижимость
3,3,11,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628,дополнительное образование,5,образование
4,0,39,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616,сыграть свадьбу,2,свадьба
5,0,2,27,высшее,0,гражданский брак,1,m,компаньон,0,255763,покупка жилья,6,недвижимость
6,0,7,43,высшее,0,женат / замужем,0,f,компаньон,0,240525,операции с жильем,6,недвижимость
7,0,0,50,среднее,1,женат / замужем,0,m,сотрудник,0,135823,образование,5,образование
8,2,18,35,высшее,0,гражданский брак,1,f,сотрудник,0,95856,на проведение свадьбы,5,свадьба
9,0,5,41,среднее,1,женат / замужем,0,m,сотрудник,0,144425,покупка жилья для семьи,5,недвижимость


Посчитаем новый столбец с целями получения кредита и проверим общее количество записей:

In [39]:
data['purpose_stem'].value_counts()

недвижимость    10763
автомобиль       4284
образование      3995
свадьба          2310
Name: purpose_stem, dtype: int64

In [40]:
data['purpose_stem'].value_counts().sum()

21352

**Вывод:** Видим, что половина клиентов приходит за кредитом на недвижимость, четверть - на автомобиль, далее на образование и свадьбу.
Для дальнейшего анализа информации определим категории клиентов банка, используя методы категоризации.

##  Категоризация данных <b id='step_2.4'></b>

Модель скоринга, для которой проводится данное исследование, должна быть ориентирована на "среднего клиента" или обычного клиента. Какой он, обычный клиент этого банка? 
В базе данных собрана информация, по которой проведем категоризацию клиентов и определим средний возраст "обычного клиента" банка, его семейный статус, доход, наличие детей, образование.
В базе данных представлены столбцы "family_status_id" и "education_id", которые идентифицируют определенные значения. 
Составим словари по данным столбцам.

In [41]:
family_status_dict = data[['family_status_id','family_status']]
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)
family_status_dict.head(10)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


Словарь "family_status_dict" может помочь при расчете рисков в системе скоринга, так как он может ответить на вопрос о наличии возможного созаемщика при кредитовании. Например, супруг скорее всего будет созаемщиком, а у вдовца нне найти созаемщика риски выше. И так далее.
Составим подобный словарь по уровням образования клиента:

In [42]:
education_dict = data[['education_id','education']]
education_dict = education_dict.drop_duplicates().reset_index(drop=True)
education_dict.head(10)

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


Данный словарь также может помочь в оценке рисков по возможной невыплате кредита, так как очевидно, что клиентам с низким уровнем образования найти работу сложнее и доходы, как правило, ниже.

Теперь напишем функцию, определяющую статус клиента по количеству детей, где:
* 0 - нет детей;
* 1- 1 ребенок;
* 2- 2 ребенка;
* от 3 и более - многодетный

Данное разделение берем неслучайно, так как выясним, отражают ли клиенты банка утверждение российских социологов, что самыми бедными являются семьи с 2мя детьми. В дальнейшем посмотрим, какой доход у таких семей и как они платят кредиты.


In [43]:
def children_status(children):
    if children <1:
        return 'нет детей'
    if children == 1:
        return '1 ребенок'
    if children == 2:
        return '2 ребенка'
    if children >= 3:
        return 'многодетный'
data['children_status']=data['children'].apply(children_status)
data['children_status'].value_counts()

нет детей      14021
1 ребенок       4839
2 ребенка       2039
многодетный      453
Name: children_status, dtype: int64

Функция применена верно.

Не рассматриваю столбец со стажем, так как там много сильно выделяющихся значений, там было много пропусков данных, и трудовой стаж мало коррелирует с уровнем дохода, так как есть "серая" и "черная" занятость, есть самозанятые, фрилансеры, у которых стаж не отражается в ПФР и т.п. 
Теперь разделим клиентов по категориям по возрасту, где:
* от 18 до 25 - 18-25 (студенты/начинающие карьеру)
* от 26 до 33 - 26-33 (взрослые, строят семью и карьеру, появляются дети)
* от 34 до 41 - 34-41 (взрослые, в семье часто несколько детей)
* от 42 до 49 - 42-49 (взрослые, вырастают дети)
* от 50 до 57 - 50-57 (предпенсионеры)
* от 58 до 65 - 58-65 (предпенсионеры / работающие пенсионеры)
* от 65 до 75 - 65-75 (пенсионеры)

Такое разделение по 7 лет в каждой группе, во-первых, отражает каждое новое поколение людей (поколение - 7 лет), поможет на уровне доходов и выплате кредитов отследить циклы в финансах (обучение, старт карьеры, семья, дети - рост финансовой нагрузки, средний возраст, закат карьеры, пенсия), во-вторых, соответсвует сроку трудовой жизни человека от 18 лет до 60-65 лет (ж/м), согласно новой пенсионной реформе.
Также напишем функцию и применим ее к данным, категоризируя клиентов по возрасту:

In [44]:
def years_status(years):
    if 18<= years <=25:
        return '18-25'
    if 26<= years <=33:
        return '26-33'
    if 34<= years <=41:
        return '34-41'
    if 42<= years <=49:
        return '42-49'
    if 50<= years <=57:
        return '50-57'
    if 58<= years <=65:
        return '58-65'
    if 65<= years <=75:
        return '65-75'
    return 'не подходит по возрасту'
data['years_status']=data['dob_years'].apply(years_status)
data['years_status'].value_counts()

34-41    4688
42-49    4142
26-33    4134
50-57    3760
58-65    2695
18-25    1231
65-75     702
Name: years_status, dtype: int64

Видим, что большинство заявок на кредит подают люди в возрасте 34-41 год, далее 42-49 и 26-33, что вполне соответсвует действительности.
Меньше всего заявок от самых молодых клиентов 18-25 и возрастных 65-75.

Теперь разделим клиентов по уровню дохода. Ранее мы определили [медианный доход](#median). Часто людей делят по уровню дохода на 3 группы (низкий, средний, высокий). Разделим также, но определим гарницы категорий, как^
* 0 - 0,66 median - низкий доход
* 0,67 median - 1,34 median - средний доход
* выше 1,35 median - высокий доход

То есть клиенты поделятся на группы относительно медианного дохода, высчитываемого автоматически по данным датасета. Отклонения от медианы на 33% будут границами групп.
Напишем функцию и применим ее:

In [45]:
def income_status(income):
    median = total_income_median
    if 0< income <=0.669999999*median:
        return 'низкий доход'
    if 0.67*median <= income <=1.349999999*median:
        return 'средний доход'
    if 1.35*median <= income :
        return 'высокий доход'
    return 'недопустимый доход'
data['income_status']=data['total_income'].apply(income_status)
data['income_status'].value_counts()

средний доход    11907
высокий доход     5338
низкий доход      4107
Name: income_status, dtype: int64

Видим, что большинство заявок приходится на средний класс.

Для большей наглядности пропишем границы классов по доходам:

In [46]:
display(f'Медиана по доходу составляет {total_income_median} руб. ')
display(f'Границы низкого дохода: от 0 до {0.669* total_income_median}: руб.')
display(f'Границы среднего дохода: от {0.67* total_income_median}  до {1.34 * total_income_median} руб.')
display(f'Границы высокого дохода: от {1.35* total_income_median} руб.')

'Медиана по доходу составляет 145005.48105850274 руб. '

'Границы низкого дохода: от 0 до 97008.66682813835: руб.'

'Границы среднего дохода: от 97153.67230919685  до 194307.3446183937 руб.'

'Границы высокого дохода: от 195757.3994289787 руб.'

## Вывод 2:
На основе проведенной предобработки данных, в том числе [обработки явных дубликатов](#step_2.1), [обработки пропусков](#step_2.2), [лемматизации](#step_2.3),[категоризации](#step_2.4) данных, датасет приобрел читабельный вид,где каждый вид переменных имеет свой справочник или категорию: 
* была удалена всего 71 строка данных, все остальные восстановлены или заменены высчитываемым медианным значением
* по высчитываемому медианному значению клиенты были разделены на группы по доходу
* категориальные переменные благодаря лемматизации были категоризированы (столбец "purpose_stem")
* количественные переменные благодаря написанию функций также были разделены на группы по возрасту, наличию детей

При делении на группы по наличию детей и возрасту клиентов использовали не укрупненные группировки, а подробные, которые отражают социально-экономические факторы и которые также используются в отчетах государтсвенных органов по социально-экономической обстановке в стране.
По полученному датасету и переменным можно проводить дальнейший анализ и отвечать на вопросы исследования.

## Шаг 3. Ответы на вопросы исследования <b id='step_3'></b>

1. Есть ли зависимость между наличием детей и возвратом кредита в срок?

Для ответа на этот вовпрос построим таблицу, содержащую информацию по количеству детей (столбец 'children_status') и просрочкой платежа в прошлом (столбец 'debt').
Воспользуемся методами .groupby() и .agg(), так как с помощью них можно создать одновременно 2 столбца с суммой и количеством по наличию просрочки платежа.

In [47]:
children_debt_answer = data.groupby(['children_status']).agg({'debt':['count','sum']})
children_debt_answer['share']=children_debt_answer['debt']['sum']/children_debt_answer['debt']['count']
children_debt_answer.head(10)

Unnamed: 0_level_0,debt,debt,share
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
children_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1 ребенок,4839,442,0.091341
2 ребенка,2039,194,0.095145
многодетный,453,39,0.086093
нет детей,14021,1058,0.075458


Видим, что доля просроченных кредитов у клиентов без детей ниже (7,5%), чем у клиентов с детьми (от 8,6% до 9,5%). Причем наибольший процент просроченных кредитов у семей с двумя детьми, что еще раз доказывает правильность выводов социологов о том, что беднее всего семьи с двумя детьми по среднемесячному душевому доходу. Им труднее всего платить кредиты, а значит, растет доля просрочек.

Такое положение складывается из-за того, что у этих семей расходов больше, чем у семей с 1-м ребенком, но они не имеют тех льгот и пособий, что семьи с 3-мя детьми (многодетные).

Доля просрочек у многодетных семей меньше, чем у семей с 1-2 детьми. Это можно объяснить тем, что такие семьи понимают свое положение и берут кредит, тщательно рассчитав свои силы.

Далее добавляя группировку по доходу, можно увидеть, клиенты с каким доходом и наличием детей имеют наибольшие трудности:

In [48]:
children_debt_answer_1 = data.groupby(['children_status', 'income_status']).agg({'debt':['count','sum']})
children_debt_answer_1['share']=children_debt_answer_1['debt']['sum']/children_debt_answer_1['debt']['count']
children_debt_answer_1.head(50)

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt,share
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
children_status,income_status,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1 ребенок,высокий доход,1258,97,0.077107
1 ребенок,низкий доход,830,78,0.093976
1 ребенок,средний доход,2751,267,0.097056
2 ребенка,высокий доход,527,43,0.081594
2 ребенка,низкий доход,385,35,0.090909
2 ребенка,средний доход,1127,116,0.102928
многодетный,высокий доход,122,7,0.057377
многодетный,низкий доход,73,8,0.109589
многодетный,средний доход,258,24,0.093023
нет детей,высокий доход,3431,235,0.068493


Добавив группировку по доходу, видим, что наибольшие трудности в возврате кредитов испытывают многодетные семьи с низкими доходами, что логично.

**Вывод:** Зависимость между наличием детей и возвратом кредитов в срок есть. 

Доля просроченных кредитов у клиентов без детей ниже (7,5%), чем у клиентов с детьми (от 8,6% до 9,5%). Причем наибольший процент просроченных кредитов у семей с двумя детьми. Доля просрочек у многодетных семей меньше, чем у семей с 1-2 детьми. Это можно объяснить тем, что такие семьи понимают свое положение и берут кредит, тщательно рассчитав свои силы.

Добавив группировку по доходу, видим, что наибольшие трудности в возврате кредитов испытывают многодетные семьи с низкими доходами, что логично.


2. Есть ли зависимость между семейным положением и возвратом кредита в срок?

Для ответа на этот вовпрос построим таблицу, содержащую информацию о семейном статусе (столбец 'family_status') и просрочкой платежа в прошлом (столбец 'debt').
Воспользуемся методами .groupby() и .agg(), так как с помощью них можно создать одновременно 2 столбца с суммой и количеством по наличию просрочки платежа.

In [49]:
family_debt_answer = data.groupby(['family_status']).agg({'debt':['count','sum']})
family_debt_answer['share']=family_debt_answer['debt']['sum']/family_debt_answer['debt']['count']
family_debt_answer.head(10)

Unnamed: 0_level_0,debt,debt,share
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
в разводе,1185,85,0.07173
вдовец / вдова,954,62,0.06499
гражданский брак,4129,386,0.093485
женат / замужем,12290,927,0.075427
не женат / не замужем,2794,273,0.097709


Получившиеся данные не выявляют какой-либо зависимости. Однако "копнем" глубже.

Чтобы ответить на вопрос, определим общий процент просрочки платежей, чтобы сравнивать с ними получаемые данные:

In [50]:
general_debt = data.agg({'debt':['count','sum']})
general_debt['share']=general_debt ['debt']['sum']/general_debt['debt']['count']
general_debt.head()

Unnamed: 0,debt,share
count,21352,0.081163
sum,1733,0.081163


8,12% клиентов банка допускают задолженности и просрочки платежей. 

С этим показателем будем сравнивать величину просрочки по категориям.
Самый низкий процент неплатежей в категориях "вдовец / вдова" и "в разводе". Это можно объяснить тем, что люди, находясь одни, без поддержки, лучше взвешивают риски и оценивают свои возможности.
Однако доля задолженностей растет далее у категорий. Наибольшая доля просрочки у категории "не женат/не замужем", что можно объяснить тем, что это статус на момент подачи заявки. Далее семейный статус может меняться. Но углубим анализ еще и добавим группировку по доходам:

In [51]:
family_debt_answer = data.groupby(['family_status','income_status']).agg({'debt':['count','sum']})
family_debt_answer['share']=family_debt_answer['debt']['sum']/family_debt_answer['debt']['count']
family_debt_answer.head(30)

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt,share
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
family_status,income_status,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
в разводе,высокий доход,304,19,0.0625
в разводе,низкий доход,232,17,0.073276
в разводе,средний доход,649,49,0.075501
вдовец / вдова,высокий доход,167,11,0.065868
вдовец / вдова,низкий доход,259,12,0.046332
вдовец / вдова,средний доход,528,39,0.073864
гражданский брак,высокий доход,1038,70,0.067437
гражданский брак,низкий доход,788,72,0.091371
гражданский брак,средний доход,2303,244,0.105949
женат / замужем,высокий доход,3128,216,0.069054


Видим, что доля задолженностей более зависит типа дохода, чем от семейного положения, так как прослеживается связь низкого дохода и большей просрочки, высокого дохода и низкой долей просроченных платежей.


**Вывод:** Нет зависимости между семейным положением и возвратом кредита в срок.
Определили средний процент задолженностей по датасету. Сравнили данные по зависимости семейного положения и возврата кредитов в срок. Обнаружили, что зависимости от семейного положения нет. Обнаружили связь с типом дохода. Во всех категориях семейного положения при низком доходе вероятность просрочки возрастает, а при высоком доходе - падает.

3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Для ответа на этот вовпрос построим таблицу, содержащую информацию об уровне дохода (столбец 'income_status') и просрочкой платежа в прошлом (столбец 'debt').
Воспользуемся методами .groupby() и .agg(), так как с помощью них можно создать одновременно 2 столбца с суммой и количеством по наличию просрочки платежа.

In [52]:
income_debt_answer = data.groupby(['income_status']).agg({'debt':['count','sum']})
income_debt_answer['share']=income_debt_answer['debt']['sum']/income_debt_answer['debt']['count']
income_debt_answer.head(30)

Unnamed: 0_level_0,debt,debt,share
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
income_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
высокий доход,5338,382,0.071562
низкий доход,4107,330,0.080351
средний доход,11907,1021,0.085748


Если средний процент по всем данным 8,12%, то в группе с высоким доходом этот процент ниже (7,16%), что ожидаемо. 
Неожиданно, что при средних доходах просрочек больше , чем в группе с низкими доходами.
Это можно объяснить тем, что людям с низкими доходами сложнее получить кредит и они относятся более ответственно, возможно, имеют льготы от государства.
У клиентов со средними доходами могут менятся жизненные обстоятельства, они не имеют льгот, поэтому доля задолженности чуть выше средней (8,57%).

Добавим в группировку возраст клиентов, чтобы выявить зависимость от возраста.


In [53]:
income_debt_answer = data.groupby(['income_status','years_status']).agg({'debt':['count','sum']})
income_debt_answer['share']=income_debt_answer['debt']['sum']/income_debt_answer['debt']['count']
income_debt_answer.head(30)

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt,share
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
income_status,years_status,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
высокий доход,18-25,199,17,0.085427
высокий доход,26-33,1112,99,0.089029
высокий доход,34-41,1331,91,0.06837
высокий доход,42-49,1204,81,0.067276
высокий доход,50-57,853,62,0.072685
высокий доход,58-65,548,26,0.047445
высокий доход,65-75,91,6,0.065934
низкий доход,18-25,268,30,0.11194
низкий доход,26-33,689,80,0.11611
низкий доход,34-41,740,72,0.097297


Добавив возрастные группы видим взаимосвязь роста просрочек по кредиту у более молодых клиентов по сравнении с более возрастными во всех группах дохода.

Отметим исключение, это средняя группа по доходу и средний возвраст клиента с 26 до 33 лет. Портрет этого клиента - взрослый достаточно молодой человек у, которого , вероятно, несколько детей, есть потребность в расширении жилплощади, но сокращаются ресурсы из-за декрета, болничных и т.д. Также из-за большой доли людей со средним доходом  эта категория имеет самый большой вес, поэтому можно сказать, что зависимость есть.


**Вывод:** Да, есть зависимость между уровнем дохода и возвратом кредита в срок. 
Чем выше доход, тем меньше вероятность образования задолженности.
Причем во всех группах отмечается зависмость доли просрочек от возраста. Чем меньше возраст, тем больше просрочек.

4. Как разные цели кредита влияют на его возврат в срок?

Для ответа на этот вовпрос построим таблицу, содержащую информацию цели кредита (столбец 'purpose_stem') и просрочкой платежа в прошлом (столбец 'debt').
Воспользуемся методами .groupby() и .agg(), так как с помощью них можно создать одновременно 2 столбца с суммой и количеством по наличию просрочки платежа.

In [54]:
purpose_debt_answer = data.groupby(['purpose_stem']).agg({'debt':['count','sum']})
purpose_debt_answer['share']=purpose_debt_answer['debt']['sum']/purpose_debt_answer['debt']['count']
purpose_debt_answer.head(20)

Unnamed: 0_level_0,debt,debt,share
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
purpose_stem,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
автомобиль,4284,400,0.093371
недвижимость,10763,779,0.072378
образование,3995,370,0.092616
свадьба,2310,184,0.079654


Видим, что на автобобили и образование чаще случаются задолженности при возврате кредита. Меньше риск невозвратов у кредитов на свадьбу и недвижимость.

Добавив в группировку данные по доходу, отследим ту же зависимость:

In [55]:
purpose_debt_answer = data.groupby(['purpose_stem','income_status']).agg({'debt':['count','sum']})
purpose_debt_answer['share']=purpose_debt_answer['debt']['sum']/purpose_debt_answer['debt']['count']
purpose_debt_answer.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt,share
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
purpose_stem,income_status,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
автомобиль,высокий доход,1086,93,0.085635
автомобиль,низкий доход,796,68,0.085427
автомобиль,средний доход,2402,239,0.0995
недвижимость,высокий доход,2741,185,0.067494
недвижимость,низкий доход,2084,147,0.070537
недвижимость,средний доход,5938,447,0.075278
образование,высокий доход,937,75,0.080043
образование,низкий доход,782,74,0.094629
образование,средний доход,2276,221,0.0971
свадьба,высокий доход,574,29,0.050523


Кредит на жилье важен и , скорее всего, обеспечен залогом, там доля просрочек меньше во всех категориях.
Интересно, что у клиентов с низкими доходами растет доля просрочки на кредиты на образование и свадьбу, так как они не обеспечены залогом.
Также задолженность по кредитам на свадьбу и образование может появляться, когда клиент бросает учебу (а потом платить за кредит за нее) и при разводе, когда бывшие супруги могут вступать в длительный бракоразводный процесс с разделом имущества (и никто не хочет платить за прошедшую свадьбу).

Каждая цель кредита имеет под собой экономическую и эмоциональную окраску.
* автомобиль - кредит, обеспеченный залогом (авто). Увеличивает состав имущества клиента, но увеличивает и задолженность клиента.
* недвижимость - кредит, обеспеченный залогом (недвижимость). Увеличивает состав имущества клиента, но увеличивает и задолженность клиента.
* образование - кредит необеспеченный. НЕ увеличивает состав имущества клиента, но увеличивает задолженность клиента.
* свадьба  - кредит необеспеченный. НЕ увеличивает состав имущества клиента, но увеличивает задолженность клиента.

Видим, что необеспечннные кредиты, явно НЕ влияющие на состав физического имущества клиента, имеют худшую возвратность, в том числе связанную с эмоциональной окраской.
Кредиты, обеспечнные залогом и/или явно увеличивающие состав имущества клиента, имеют лучшую возвратность.

**Вывод:** Зависимость цели кредита и его возвратом в срок есть.
Видим, что необеспечннные кредиты, явно НЕ влияющие на состав физического имущества клиента, имеют худшую возвратность, в том числе связанную с эмоциональной окраской.
Кредиты, обеспечнные залогом и/или явно увеличивающие состав имущества клиента, имеют лучшую возвратность.
Есть также зависимость от типа дохода клиента в каждой из целей кредита.

## Шаг 4. Общий вывод исследования <b id='step_4'></b>

Изучив и предобработав данные, получили ответы на вопросы исследования:
* Зависимость между наличием детей и возвратом кредитов в срок есть. Доля просроченных кредитов у клиентов без детей ниже (7,5%), чем у клиентов с детьми (от 8,6% до 9,5%). Причем наибольший процент просроченных кредитов у семей с двумя детьми. Доля просрочек у многодетных семей меньше, чем у семей с 1-2 детьми. Это можно объяснить тем, что такие семьи понимают свое положение и берут кредит, тщательно рассчитав свои силы.
Добавив группировку по доходу, видим, что наибольшие трудности в возврате кредитов испытывают многодетные семьи с низкими доходами, что логично.
* Нет зависимости между семейным положением и возвратом кредита в срок. Определили средний процент задолженностей по датасету. Сравнили данные по зависимости семейного положения и возврата кредитов в срок. Обнаружили, что зависимости от семейного положения нет. Обнаружили связь с типом дохода. Во всех категориях семейного положения при низком доходе вероятность просрочки возрастает, а при высоком доходе - падает.
* Да, есть зависимость между уровнем дохода и возвратом кредита в срок. Чем выше доход, тем меньше вероятность образования задолженности. Причем во всех группах отмечается зависмость доли просрочек от возраста. Чем меньше возраст, тем больше просрочек.
* Видим, что необеспечннные кредиты, явно НЕ влияющие на состав физического имущества клиента, имеют худшую возвратность, в том числе связанную с эмоциональной окраской. Кредиты, обеспечнные залогом и/или явно увеличивающие состав имущества клиента, имеют лучшую возвратность. Есть также зависимость от типа дохода клиента в каждой из целей кредита.