<a id='title'></a> 
## Описание проекта "Исследование надёжности заёмщиков".

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Работу над проектом будем осуществлять в следующем порядке:

### Этап 1. Импорт библиотек, считывание и первичный анализ данных:

<a href='#1.1'>1.1. Импорт библиотек, считывание и первичный анализ данных.</a> 

### Этап 2. Предобработка данных:

<a href='#2.1'>2.1. Обработка пропусков.</a>

<a href='#2.1.1'>2.1.1. Обработка пропусков в столбце "days_employed".</a>

<a href='#2.1.2'>2.1.2. Обработка пропусков в столбце "total_income".</a>

<a href='#2.2'>2.2. Обработка аномальных значений.</a>

<a href='#2.2.1'>2.2.1. Обработка аномальных значений в столбце "children".</a>

<a href='#2.2.2'>2.2.2. Обработка аномальных значений в столбце "dob_years".</a>

<a href='#2.2.3'>2.2.3. Обработка аномальных значений в столбце "gender".</a>

<a href='#2.3'>2.3. Замена типа данных.</a>

<a href='#2.4'>2.4. Обработка дубликатов.</a>

<a href='#2.5'>2.5. Лемматизация.</a>

<a href='#2.6'>2.6. Категоризация данных.</a>

<a href='#2.6.1'>2.6.1. Категоризация признака "lemma".</a>

<a href='#2.6.2'>2.6.2. Категоризация признака "dob_years".</a>

<a href='#2.6.3'>2.6.3. Категоризация признака "income_type".</a>

<a href='#2.6.4'>2.6.4. Категоризация признака "children".</a>

<a href='#2.6.5'>2.6.5. Категоризация признака "total_income".</a>



### Этап 3. Вопросы:

<a href='#3.1'>3.1. Вопрос "Есть ли зависимость между наличием детей и возвратом кредита в срок?".</a>

<a href='#3.2'>3.2. Вопрос "Есть ли зависимость между семейным положением и возвратом кредита в срок?"</a>

<a href='#3.3'>3.3. Вопрос "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?"</a>

<a href='#3.4'>3.4. Вопрос "Как разные цели кредита влияют на его возврат в срок?"</a>

# Этап 1. Импорт библиотек, считывание и первичный анализ данных. 

<a id='1.1'></a> 
## Этап 1.1. Импорт библиотек, считывание и первичный анализ данных.

Импортируем нужные библиотеки.

In [1]:
import pandas as pd
from pymystem3 import Mystem

Считаем набор данных.

In [2]:
df = pd.read_csv('data.csv')
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
df.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


In [4]:
df.shape

(21525, 12)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [6]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [7]:
df['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [8]:
df['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64

In [9]:
df['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [10]:
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [11]:
df['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

In [12]:
df['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

In [13]:
df['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

# Вывод по этапу 1.
Набор данных состоит из 12 признаков, каждый признак включает в себя 21525 строк.

Типы данных DF:
- дробные числа (с плавающей точкой) - 2 колонки;
- целые числа - 5 колонок;
- категориальные поля - 5 колонок.

Предварительно видим, что колонки days_employed и total_income содержат 19351 запись, в то время как остальные колонки содержат 21525 записей.  
Учитывая семантический смысл, заложенный в наименование колонки, можно сделать вывод о том, что эти колонки имеют между собой непосредственную зависимость: ежемесячный доход есть у тех клиентов, у которых есть записи об общем трудовом стаже.  

Также можно отметить некоторые особенности данных в следующих полях:

- в поле children есть значением - 1, в поле всего 47 записей с таким значением поля, а также значение 20, в поле 76 записей с таким значением поля, что выглядит как нечто аномальное, нужно проанализировать глубже;

- в поле dob_years есть 101 записись, где возраст клиента составляет 0 лет, что также кажется маловероятным, нужно проанализировать глубже; 

- в поле gender есть 1 запись со значением XNA;

- в поле days_employed, которое содержит информацию об общем трудовом стаже клиента в днях, мы видим:

1. количественное значение в виде дроби, что является не совсем корректным с точки зрения здравого смысла, так как не принято говорить "человек отработал один день и треть второго". Вероятно, будет целесообразно преобразовать данные в тип "int" c окгуглением до целого в меньшую сторону;

2. видим как положительные, так и отрицательные значения. Возможно, понадобится проанализировать значения этого поля глубже, чтобы понять закономерности, обуславливающие отрицательное значение общего трудового стажа;

- в поле education, которое содержит информацию об уровне образования клиента, мы видим семантически идентичные, но синтаксически разные позиции: значения "Среднее", "СРЕДНЕЕ", "среднее" указывают на наличие у клиента среднего образования (что также подтверждается визуально определяемым совпадением с колонкой education_id, где значению 1 соответствует среднее образование, а значению 0 - высшее), однако операции с данными в этом поле покажут три разных уровня образования. Следовательно, необхоодимо будет привести их к одному уровню регистра.

<a href='#title'>К оглавлению.</a>

# Этап 2. Предобработка данных.

<a id='2.1'></a> 
## Этап 2.1. Обработка пропусков.

Посчитаем общее количество пропусков.

In [14]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [15]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [16]:
print(df[df['days_employed'].isna()].count())

children            2174
days_employed          0
dob_years           2174
education           2174
education_id        2174
family_status       2174
family_status_id    2174
gender              2174
income_type         2174
debt                2174
total_income           0
purpose             2174
dtype: int64


Видим, что наличие пропущенных значений характерно для полей days_employed и total_income, при этом количество пропущенных значений в этих полях совпадает.

Методы .isnull() и .isna() показывают аналогичные результаты и указывают на количество пропусков в DF, равное 2174. К аналогичному результату можно прийти, получив информацию о тех строках DF, в которых не заполнено поле 'days_employed'. 

Вместе с этим видим, что такой же результат характерен для поля total_income, что указывает на возможную взаимосвязь между days_employed и total_income.

Также видим, что оба поля, в которых есть пропуски - days_employed и total_income - являются количественными, следовательно, имеем пропуск значений вида NaN.

Рассмотрим таблицу, в которой значения полей days_employed и total_income пропущены, и попытаемся понять причину возникновения пропущенных значений.

In [17]:
df[df['days_employed'].isna()].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


In [18]:
df[df['days_employed'].isna()].tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21415,0,,54,среднее,1,женат / замужем,0,F,пенсионер,0,,операции с жильем
21423,0,,63,среднее,1,женат / замужем,0,M,пенсионер,0,,сделка с автомобилем
21426,0,,49,среднее,1,женат / замужем,0,F,сотрудник,1,,недвижимость
21432,1,,38,неоконченное высшее,2,Не женат / не замужем,4,F,сотрудник,0,,операции с жильем
21463,1,,35,высшее,0,гражданский брак,1,M,сотрудник,0,,на проведение свадьбы
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости
21510,2,,28,среднее,1,женат / замужем,0,F,сотрудник,0,,приобретение автомобиля


In [19]:
df[df['days_employed'].isna()]['children'].value_counts()

 0     1439
 1      475
 2      204
 3       36
 20       9
 4        7
-1        3
 5        1
Name: children, dtype: int64

In [20]:
df[df['days_employed'].isna()]['dob_years'].value_counts()

34    69
40    66
42    65
31    65
35    64
36    63
47    59
41    59
30    58
28    57
58    56
57    56
54    55
56    54
38    54
52    53
37    53
33    51
50    51
39    51
29    50
43    50
49    50
51    50
45    50
46    48
55    48
48    46
44    44
53    44
60    39
62    38
61    38
64    37
32    37
23    36
27    36
26    35
59    34
63    29
25    23
24    21
66    20
65    20
21    18
22    17
67    16
0     10
68     9
71     5
20     5
69     5
70     3
72     2
19     1
73     1
Name: dob_years, dtype: int64

In [21]:
df[df['days_employed'].isna()]['education'].value_counts()

среднее                1408
высшее                  496
СРЕДНЕЕ                  67
Среднее                  65
неоконченное высшее      55
Высшее                   25
ВЫСШЕЕ                   23
начальное                19
Неоконченное высшее       7
НЕОКОНЧЕННОЕ ВЫСШЕЕ       7
Начальное                 1
НАЧАЛЬНОЕ                 1
Name: education, dtype: int64

In [22]:
df[df['days_employed'].isna()]['family_status'].value_counts()

женат / замужем          1237
гражданский брак          442
Не женат / не замужем     288
в разводе                 112
вдовец / вдова             95
Name: family_status, dtype: int64

In [23]:
df[df['days_employed'].isna()]['income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

In [24]:
df[df['days_employed'].isna()]['debt'].value_counts()

0    2004
1     170
Name: debt, dtype: int64

In [25]:
df[df['days_employed'].isna()]['purpose'].value_counts()  

на проведение свадьбы                     92
сыграть свадьбу                           81
свадьба                                   76
строительство собственной недвижимости    75
операции с жильем                         74
покупка недвижимости                      72
операции со своей недвижимостью           71
покупка жилья для семьи                   71
ремонт жилью                              70
операции с коммерческой недвижимостью     70
покупка коммерческой недвижимости         67
покупка жилья для сдачи                   65
недвижимость                              62
покупка жилой недвижимости                61
операции с недвижимостью                  61
жилье                                     60
строительство недвижимости                59
автомобили                                57
заняться высшим образованием              56
заняться образованием                     55
сделка с подержанным автомобилем          54
на покупку своего автомобиля              53
свой автом

Как видим, какая-то системная закономерность, которая могла бы объяснить наличие пропущенных значений в DF, отсуствует. Вероятно, имеет место какая-то внесистемная ошибка в источниках данных, обусловившая наличие пропущенных значений, либо же соответствующие данные о таких клиентах по каким-то причинам не были получены.

<a href='#title'>К оглавлению.</a> 

<a id='2.1.1'></a> 
### Этап 2.1.1. Обработка пропусков в столбце "days_employed".

Как отмечалось ранее, поле days_employed имеет как положительные, так и отрицательные значения. Чтобы обработать пропуски в этом поле, рассмотрим данные, которые в этом поле хранятся.

In [26]:
print(df[df['days_employed'] > 0].count())

children            3445
days_employed       3445
dob_years           3445
education           3445
education_id        3445
family_status       3445
family_status_id    3445
gender              3445
income_type         3445
debt                3445
total_income        3445
purpose             3445
dtype: int64


In [27]:
print(df[df['days_employed'] < 0].count())

children            15906
days_employed       15906
dob_years           15906
education           15906
education_id        15906
family_status       15906
family_status_id    15906
gender              15906
income_type         15906
debt                15906
total_income        15906
purpose             15906
dtype: int64


Отметим, что количество отрицательных значений поля days_employed значительно превосходит количество его положительных значений.

Рассмотрим тип занятости для обоих групп клиентов.

In [28]:
df[df['days_employed'] > 0]['income_type'].value_counts()

пенсионер      3443
безработный       2
Name: income_type, dtype: int64

In [29]:
df[df['days_employed'] < 0]['income_type'].value_counts()

сотрудник          10014
компаньон           4577
госслужащий         1312
в декрете              1
студент                1
предприниматель        1
Name: income_type, dtype: int64

Отметим, что аномально высокие значения общего трудового стажа характерны для пенсионеров и безработных, однако только для этих групп клиентов значения трудового стажа являются положительными.

Основную долю значений поля days_employed составляют клиенты, значение общего трудового стажа которых заметно ниже, чем у пенсионеров и безработных, однако они имеют отрицательные значения.

Чтобы корректно заменить пропуски в поле days_employed, сначала их нужно привести к единому формату для расчёта показателей центра распределения, на который будут заменены пропуски.

Для этого напишем функцию, которая принимает на вход значения поля days_employed и выполняет с ним следующую логику:

- если значение поля больше нуля, функция возвращает значения поля без изменений;
- если значения поля меньше нуля, функция возвращает значения поля, умноженное на "-1", чтобы значение поля стало положительным;
- во всех остальных случаях функция возвращает значение поля без изменений.

Реализация функции необходима для корректного расчёта показателей центра распределения, так как наличие как отрицательных, так и положительных значений в наборе данных для расчёта показателей центра распределения приведёт к смещению их значения.

In [30]:
def days_employed_repalce(days):
    if days > 0:
        return days;
    elif days < 0:
        return days * (-1)
    else:
        return days

Протестируем работу функции

In [31]:
print(days_employed_repalce(10))
print(days_employed_repalce(-10))
print(days_employed_repalce(0))

10
10
0


Видим, что функция работает корректно на тестовых данных.

Для выполнения функции новое поле не нужно, поэтому результат работы функции будем передавать в имеющееся поле days_employed, заменяя новыми значениями старые

In [32]:
df['days_employed'] = df['days_employed'].apply(days_employed_repalce)

Проверим правильность работы функции. Если функция отработала в соответствии с заложенной логикой, в DF в поле days_employed не должно остаться значений меньше нуля, а количество пропущенных значений не должно измениться. Напомним, что ранее таких значений было 15906, значений больше нуля было 3445, всего значений 19351, пропущенных значений 2174.

In [33]:
print(df[df['days_employed'] < 0].count())

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64


In [34]:
print(df[df['days_employed'] > 0].count())

children            19351
days_employed       19351
dob_years           19351
education           19351
education_id        19351
family_status       19351
family_status_id    19351
gender              19351
income_type         19351
debt                19351
total_income        19351
purpose             19351
dtype: int64


In [35]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Видим, что функция работает корректно. Имея корректные данные, можем рассчитывать показатели центра распределения. Отметим, что в их расчёте будут участвовать только те записи поля days_employed, в которых значения не пропущены, чтобы не получить смещённую оценку аггрегатов

In [36]:
days_employed_mean_without_null = df[df['days_employed'].notnull()]['days_employed'].mean()
print(days_employed_mean_without_null)

66914.72890682195


In [37]:
days_employed_median_without_null = df[df['days_employed'].notnull()]['days_employed'].median()
print(days_employed_median_without_null)

2194.220566878695


Видим, что между средним и медианным значением существует большое различие, обусловленное наличием аномально больших значений общего трудового стажа, характерного для пенсионеров и безработных, которые на фоне большинства значений общего трудового стажа клиентов других типов занятостей можно расценивать как выбросы. Поэтому логичнее использовать медиану, которая менее чувствительна к выбросам, чем среднее.

In [38]:
df['days_employed'] = df['days_employed'].fillna(days_employed_median_without_null)

In [39]:
df.isnull().sum()

children               0
days_employed          0
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Видим, что после замены пропущенных значений поля days_employed на медианное значение пропуски в этом поле отсутствуют.

<a href='#title'>К оглавлению.</a> 

<a id='2.1.2'></a> 
### Этап 2.1.2. Обработка пропусков в столбце "total_income".

Так как значения поля total_income кажутся однородными и не имеющими аномалий, которые имели место в поле days_employed, пропущенные значения в поле total_income будем заменять на медианную зарплату. 

Вместе с тем ежемесячный доход с большим дробным хвостом может быть менее удобен для анализа, поэтому преобразуем данные поля total_income из типа float, которым они являются на текущий момент, в тип int для отсечения дробной части.

In [40]:
total_income_median = df['total_income'].median()
print(total_income_median)

145017.93753253992


In [41]:
df.isna().sum()

children               0
days_employed          0
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [42]:
df['total_income'] = df['total_income'].fillna(total_income_median)

In [43]:
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Видим, что после замены пропущенных значений поля total_income на медианное значение пропуски в этом поле отсутствуют.

<a href='#title'>К оглавлению.</a> 

<a id='2.2'></a> 
## Этап 2.2. Обработка аномальных значений.

<a id='2.2.1'></a> 
### Этап 2.2.1. Обработка аномальных значений в столбце "children".

In [44]:
df[(df['children'] == 20) | (df['children'] == -1)].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
291,-1,4417.703588,46,среднее,1,гражданский брак,1,F,сотрудник,0,102816.346412,профильное образование
606,20,880.221113,21,среднее,1,женат / замужем,0,M,компаньон,0,145334.865002,покупка жилья
705,-1,902.084528,50,среднее,1,женат / замужем,0,F,госслужащий,0,137882.899271,приобретение автомобиля
720,20,855.595512,44,среднее,1,женат / замужем,0,F,компаньон,0,112998.738649,покупка недвижимости
742,-1,3174.456205,57,среднее,1,женат / замужем,0,F,сотрудник,0,64268.044444,дополнительное образование
800,-1,349987.852217,54,среднее,1,Не женат / не замужем,4,F,пенсионер,0,86293.724153,дополнительное образование
941,-1,2194.220567,57,Среднее,1,женат / замужем,0,F,пенсионер,0,145017.937533,на покупку своего автомобиля
1074,20,3310.411598,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518.537004,получение образования
1363,-1,1195.264956,55,СРЕДНЕЕ,1,женат / замужем,0,F,компаньон,0,69550.699692,профильное образование
1929,-1,1461.303336,38,среднее,1,Не женат / не замужем,4,M,сотрудник,0,109121.569013,покупка жилья


In [45]:
df[(df['children'] == 20) | (df['children'] == -1)]['family_status'].value_counts()

женат / замужем          78
гражданский брак         17
Не женат / не замужем    14
вдовец / вдова            8
в разводе                 6
Name: family_status, dtype: int64

In [46]:
df[(df['children'] == 20) | (df['children'] == -1)]['income_type'].value_counts()

сотрудник      69
компаньон      31
пенсионер      17
госслужащий     6
Name: income_type, dtype: int64

In [47]:
df[(df['children'] == 20) | (df['children'] == -1)]['gender'].value_counts()

F    82
M    41
Name: gender, dtype: int64

Видим, что в данных отсутствуют какие-либо закономерности, которые могли бы обсуловить значение поля children, равное "-1" и "20": у клиентов, для которых в поле children записано значение "20" или "-1", разное семейное положение, разный тип занятости, разный пол. Возможно, значение "20" изначально было равно "2", а в системе к нему прибавился лишний ноль, так как наличие 20 детей у 76 клиентов кажется маловероятным. Значение "-1", возможно, стало таким в ходе обработки данных системой-хранилищем и изначально было равно "1", что кажется более вероятным, так как наличие 1 ребёнка - второе по встречаемости значение в поле children.

Используя эту логику, напишем функцию, которая будет заменять аномальные значения поля children на гипотетические по следующей логике:

- если значение поля children составляет 20, оно заменяется на значение, равное 2;
- если значение поля children составляет -1, оно заменяется на значение, равное 1;
- в остальных случаях значение поля children не будет изменяться.

In [48]:
def children_replace(children):
    if children == 20:
        return 2
    elif children == -1:
        return 1
    else:
        return children

In [49]:
print(children_replace(20))
print(children_replace(-1))
print(children_replace(35))

2
1
35


Видим, что функция работает корректно на тестовых данных.

Для выполнения функции новое поле не нужно, поэтому результат работы функции будем передавать в имеющееся поле children, заменяя новыми значениями старые

In [50]:
df['children'] = df['children'].apply(children_replace)

Проверим правильность работы функции. Если функция отработала в соответствии с заложенной логикой, в списке уникальных значений DF children будут отсутствовать значения "20" и "-1", а количество записей со значением "2" и "1" увеличатся на 76 и 47 соответственно. Напомним, что ранее количество записей в поле children со значением 2 составляло 2055, а 1 - 4818.

In [51]:
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Видим, что функция корректно заменила аномальные значения в поле children.

<a href='#title'>К оглавлению.</a> 

<a id='2.2.2'></a> 
### Этап 2.2.2. Обработка аномальных значений в столбце "dob_years".

In [52]:
df[df['dob_years'] == 0].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
149,0,2664.273168,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем
270,3,1872.663186,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью
578,0,397856.565013,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1040,0,1158.029561,0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль
1149,0,934.654854,0,среднее,1,женат / замужем,0,F,компаньон,0,201852.430096,покупка недвижимости
1175,0,370879.508002,0,среднее,1,женат / замужем,0,F,пенсионер,0,313949.845188,получение дополнительного образования
1386,0,5043.21989,0,высшее,0,женат / замужем,0,M,госслужащий,0,240523.618071,сделка с автомобилем
1890,0,2194.220567,0,высшее,0,Не женат / не замужем,4,F,сотрудник,0,145017.937533,жилье
1898,0,370144.537021,0,среднее,1,вдовец / вдова,2,F,пенсионер,0,127400.268338,на покупку автомобиля


In [53]:
df[df['dob_years'] == 0]['education'].value_counts()

среднее                59
высшее                 32
Среднее                 3
Высшее                  2
СРЕДНЕЕ                 2
неоконченное высшее     2
ВЫСШЕЕ                  1
Name: education, dtype: int64

In [54]:
df[df['dob_years'] == 0]['family_status'].value_counts()

женат / замужем          49
гражданский брак         21
Не женат / не замужем    16
в разводе                10
вдовец / вдова            5
Name: family_status, dtype: int64

In [55]:
df[df['dob_years'] == 0]['income_type'].value_counts()

сотрудник      55
пенсионер      20
компаньон      20
госслужащий     6
Name: income_type, dtype: int64

In [56]:
df[df['dob_years'] == 0]['gender'].value_counts()

F    72
M    29
Name: gender, dtype: int64

Видим, что в данных отсутствуют какие-либо закономерности, которые могли бы обсуловить значение поля dob_years, равное "0": у клиентов, для которых в поле dob_years записано значение "0", разное семейное положение, разный тип занятости, разные образование и пол. Возможно, значение "0" указывает на то, что изначально поле dob_years не было заполнено, поэтому система присвоила ему значение, равное нулю.

Чтобы избавиться от этой аномалии в данных, заменим значения поля dob_years на средний возраст клиентов. 

Дя этого напишем функцию, которая будет заменять аномальные значения поля dob_years на средний возраст клиентов по следующей логике:

- если значение поля dob_years составляет 0, оно заменяется на значение, равное среднему возрасту клиентов;
- в остальных случаях значение поля dob_years не будет изменяться.

При этом при расчёте среднего возраста клиентов будем использовать только те значения поля dob_years, которые не равны нулю, чтобы получить несмещённую оценку среднего значения. 

Кроме того, так как возраст в классическом исчислении не может быть дробным, изменим тип среднего значения с float на int.

In [57]:
mean_dob_years = int(df[df['dob_years'] != 0]['dob_years'].mean())
print(mean_dob_years)

43


In [58]:
def dob_years_replace(dob_years):
    if dob_years == 0:
        return mean_dob_years
    else:
        return dob_years

Функция написана. Проверим её работоспособность.

In [59]:
print(dob_years_replace(0))
print(dob_years_replace(14))
print(dob_years_replace(42.3))

43
14
42.3


Видим, что функция работает корректно на тестовых данных.

Для выполнения функции новое поле не нужно, поэтому результат работы функции будем передавать в имеющееся поле dob_years, заменяя новыми значениями старые

In [60]:
df['dob_years'] = df['dob_years'].apply(dob_years_replace)

Проверим правильность работы функции. Если функция отработала в соответствии с заложенной логикой, в списке уникальных значений DF поля dob_years будут отсутствовать значения "0", а количество записей со значением "43" увеличатся на 101. Напомним, что ранее количество записей в поле dob_years со значением 0 составляло 513.

In [61]:
df['dob_years'].value_counts()

35    617
43    614
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Видим, что функция корректно заменила аномальные значения в поле dob_years.

<a href='#title'>К оглавлению.</a> 

<a id='2.2.3'></a> 
### Этап 2.2.3. Обработка аномальных значений в столбце "gender".

Так как, во-первых, поле gender не нужно для ответа на ключевые вопросы проекта, во-вторых, аномальное значение поля gender, равное "XNA", наблюдается только в одной строке, целесообразно просто от него избавиться, так как количество записей с таким значением составляет менее 1% от общего количества записей в DF.

In [62]:
df = df[df['gender'] != "XNA"]

In [63]:
df['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

Видим, что в поле gender отсутствует значение XNA.

<a href='#title'>К оглавлению.</a> 

<a id='2.3'></a> 
## Этап 2.3. Замена типа данных.

В DF есть поля days_employed и total_income, которые по умолчанию являются вещественными (float), т.е. дробным числом или числом с плавающей точкой.
Семантически значения этих полей проще анализировать и интерпретировать, когда они являются целыми числами (int):

- общий трудовой стаж исчислен в днях, поэтому логичнее говорить, что клиент отработал, например, 2 полных дня, чем 2 дня и 3 часа третьего дня;
- ежемесячный доход также проще анализировать и интерпретировать, когда он представлен в виде целого числа, ведь приятнее сказать, что клиент зарабатывает 999 USD, чем 999.248294759210485819283174912281328138 USD. Внушительно, но громоздко и неинтересно.

Для этого к соответствующим полям применим метод .astype(), и в качестве аргумента передадим ему значение 'int', так как нам нужно преобразование в целочисленное значение.

Метод .to_numeric() здесь применять нельзя, так как он преобразует переданные ему значения в формат float, от которого мы ходим уйти.

In [64]:
df[['days_employed', 'total_income']] = df[['days_employed', 'total_income']].astype('int')

Также на данном этапе преобразуем значения поля education путём их перевода в нижний регистр. 

Напомним, что на этапе 1 было установлено, что в поле education содержатся следующие уникальные значения:

- среднее
- высшее
- СРЕДНЕЕ
- Среднее
- неоконченное высшее
- ВЫСШЕЕ
- Высшее
- начальное
- Неоконченное высшее
- НЕОКОНЧЕННОЕ ВЫСШЕЕ
- НАЧАЛЬНОЕ
- Начальное
- ученая степень
- УЧЕНАЯ СТЕПЕНЬ
- Ученая степен

In [65]:
df['education'] = df['education'].str.lower()

In [66]:
df['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      743
начальное                282
ученая степень             6
Name: education, dtype: int64

Видим, что из 15 различных уровней образования осталось только 5, если их привести к нижнему регистру

In [67]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


<a href='#title'>К оглавлению.</a> 

<a id='2.4'></a> 
## Этап 2.4. Обработка дубликатов.

Для начала посчитаем количество дубликатов.

In [68]:
df.duplicated().sum()

71

Видим, что в DF содержится 71 дубликат. Однако такое решение поверхностно, так как не позволяет увидеть сами дубликаты.

Чтобы проанализировать дубликаты, создадим новый DF с именем df_new, в который добавим новое полеполе dupl, которому передадим значения, возвращаемые методом .duplicated(), применённым к df.

Поле содержит 2 типа записей:

- True, если поле является дубликатом;
- False, если поле не является дубликатом.

In [69]:
df_new = df[df['dob_years'] > 0]
df_new['dupl'] = df.duplicated()

In [70]:
df_new

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dupl
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,False
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,False
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,False
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,False
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,False
21521,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,False
21522,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,False
21523,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,False


In [71]:
df_new['dupl'].value_counts()

False    21453
True        71
Name: dupl, dtype: int64

Видим, что количество записей со значением True в поле dupl в df_new соответствует количеству дубликатов, полченного с помощью метода .duplicated().sum(), применённого к df.

Рассмотрим дубликаты более детально и проанализируем их уникальные значения в важных для анализа полях в DF

In [72]:
df_new[df_new['dupl'] == 1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dupl
2849,0,2194,41,среднее,1,женат / замужем,0,F,сотрудник,0,145017,покупка жилья для семьи,True
3290,0,2194,58,среднее,1,гражданский брак,1,F,пенсионер,0,145017,сыграть свадьбу,True
4182,1,2194,34,высшее,0,гражданский брак,1,F,сотрудник,0,145017,свадьба,True
4851,0,2194,60,среднее,1,гражданский брак,1,F,пенсионер,0,145017,свадьба,True
5557,0,2194,58,среднее,1,гражданский брак,1,F,пенсионер,0,145017,сыграть свадьбу,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,2194,64,среднее,1,женат / замужем,0,F,пенсионер,0,145017,дополнительное образование,True
21032,0,2194,60,среднее,1,женат / замужем,0,F,пенсионер,0,145017,заняться образованием,True
21132,0,2194,47,среднее,1,женат / замужем,0,F,сотрудник,0,145017,ремонт жилью,True
21281,1,2194,30,высшее,0,женат / замужем,0,F,сотрудник,0,145017,покупка коммерческой недвижимости,True


In [73]:
df_new[df_new['dupl'] == 1]['days_employed'].value_counts()

2194    71
Name: days_employed, dtype: int64

In [74]:
df_new[df_new['dupl'] == 1]['total_income'].value_counts()

145017    71
Name: total_income, dtype: int64

In [75]:
df_new[df_new['dupl'] == 1]['education'].value_counts()

среднее    61
высшее     10
Name: education, dtype: int64

In [76]:
df_new[df_new['dupl'] == 1]['dob_years'].value_counts()

58    7
64    5
62    4
57    4
56    4
47    3
30    3
60    3
54    3
46    3
71    2
34    2
40    2
41    2
44    2
23    2
48    2
51    2
36    1
29    1
65    1
31    1
32    1
61    1
35    1
37    1
66    1
38    1
39    1
59    1
42    1
43    1
50    1
45    1
Name: dob_years, dtype: int64

In [77]:
df_new[df_new['dupl'] == 1]['family_status'].value_counts()

женат / замужем          41
гражданский брак         26
Не женат / не замужем     3
вдовец / вдова            1
Name: family_status, dtype: int64

In [78]:
df_new[df_new['dupl'] == 1]['gender'].value_counts()

F    62
M     9
Name: gender, dtype: int64

In [79]:
df_new[df_new['dupl'] == 1]['debt'].value_counts()

0    71
Name: debt, dtype: int64

На первый взгляд можно предположить, что дубли в таблице могут быть обсуловлены тем, что перед нами статистика платёжеспособности одного клиента в рамках разных заявок на привлечение кредита, однако значения полей dob_years, education, income_type дают основания утверждать, что речь идёт о совершенно разных клиентах, так как в этих полях более 1 уникального значения.

Вместе с тем можно отметить, что дубликаты характерны для тех строк, в которых только 1 уникальная запись в полях days_employed и total_income.

1 уникальная запись также характерна для поля debt, однако я вижу в этом в большей степени совпадение, так как отсутствие просроченных выплат у 71 клиента не является репрезентативной выборкой для формирования гипотез.

Таким образом, наличие дубликатов в DF обсуловлено одинаковыми значениями полей days_employed и total_income при разных значениях полей education, dob_years, family_status и gender. 

Можно предположить, что к проблемным полям применялся какой-то механизм обезличивания в рамках предварительной обработки, так как уровень дохода и трудовой стаж являются персональными данными. Вероятно, на каком-то этапе алгоритм сработал так, что 71 клиенту были присвоены одинаковые уровни дохода и трудового стажа.

Избавиться от дубликатов можно с помощью метода .drop_duplicates(). Результаты метода .drop_duplicates() передаёт методу reset_index(), с параметром drop = True, чтобы не создавать отдельный столбец со значениями индексов строк, которые у них были до удаления дубликатов

In [80]:
df = df.drop_duplicates().reset_index(drop = True)

Проверим, есть ли дубликаты в данных после проведённой обработки.

In [81]:
df.duplicated().sum()

0

<a href='#title'>К оглавлению.</a> 

<a id='2.5'></a> 
## Этап 2.5. Лемматизация.

На этапе 1 в ходе анализа уникальных значений поля purpose мы выяснили, что в поле содержится большое количество семантически индентичных направления кредитования, которые можно категоризировать. 

Для этого целесообразно обратиться к лемматизации.

In [82]:
m = Mystem()

Для выделения леммм в значениях поля purpose напишем функцию, которая принимает на вход значение поля purpose, выделяет в нём леммы и передаёт их в новое поле lemma

In [83]:
def purpose_lemma(purpose):
    lemma = m.lemmatize(purpose)
    return lemma

In [84]:
text = 'на покупку автомобиля'
print(purpose_lemma(text))

['на', ' ', 'покупка', ' ', 'автомобиль', '\n']


Видим, что функция работает корректно на тестовых данных.

Для выполнения функции создаём новое поле lemma, в которое будем передавать результат работы функции purpose_lemma.

In [85]:
df['lemma'] = df['purpose'].apply(purpose_lemma)

Проверим правильность работы функции. Если функция отработала в соответствии с заложенной логикой, в DF должно появиться поле lemma, которое будет содержать список лемм, выделененных из поля purpose.

In [86]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]"
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]"
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]"
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,"[операция, , с, , жилье, \n]"
21449,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,"[сделка, , с, , автомобиль, \n]"
21450,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,"[недвижимость, \n]"
21451,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,"[на, , покупка, , свой, , автомобиль, \n]"


Видим, что функция корректно выделила леммы из поля purpose и поместила их в новое поле lemma.

<a href='#title'>К оглавлению.</a> 

<a id='2.6'></a> 
## Этап 2.6. Категоризация данных.

На этом шаге осуществим категоризацию данных. Наиболее очевидной кажется категоризация следующих полей:

- lemma;
- dob_years;
- income_type;
- children;
- total_income.

<a id='2.6.1'></a> 
### Этап 2.6.1. Категоризация признака "lemma".

Категоризация поля lemma позволит получить поле с категоризированной целью кредитования вместо строки с текстом.

Исходя из визуального анализа списка лемм, категоризированная цель кредитования, как правило, находится на предпоследней позиции списка перед элементом "\n'. Это не всегда так, поэтому такая функция будет иметь некоторую погрешность, которую, тем не менее, можно принять ради удобства дальнейшего анализа информации.

Для этого напишем функцию, которая принимает на вход список с леммами из поля lemma, извлекает из неё предпоследний элемент и помещает её в новое поле purpose_categ.

In [87]:
def purpose_categ(lemma):
    lemma = lemma[len(lemma) - 2]
    return lemma

In [88]:
text = 'на покупку автомобиля'
lemma = m.lemmatize(text)
print(lemma)
print(purpose_categ(lemma))

['на', ' ', 'покупка', ' ', 'автомобиль', '\n']
автомобиль


Видим, что функция работает корректно на тестовых данных.

Для выполнения функции создаём новое поле purpose_categ, в которое будем передавать результат работы функции purpose_categ.

In [89]:
df['purpose_categ'] = df['lemma'].apply(purpose_categ)

In [90]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,purpose_categ
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]",жилье
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]",жилье
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]",образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]",свадьба
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья


Видим, что в DF появилось поле purpose_categ, которое содержит категории направлений кредитования, сформированные на основе лемм, полученных на предыдущем шаге.

Получим и сосчитаем уникальные значения поля purpose_categ.

In [91]:
df['purpose_categ'].value_counts()

недвижимость    6350
автомобиль      4306
образование     4013
жилье           3171
свадьба         2324
сдача            651
семья            638
Name: purpose_categ, dtype: int64

В целом видим довольно адекватные результаты, за исключением значений "сдача" и "семья". 

Посмотрим поближе на клиентов с этой целью кредитования.

In [92]:
df[df['purpose_categ'] == 'сдача'].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,purpose_categ
87,0,337659,53,среднее,1,женат / замужем,0,F,пенсионер,0,74363,покупка жилья для сдачи,"[покупка, , жилье, , для, , сдача, \n]",сдача
98,0,364906,54,высшее,0,женат / замужем,0,F,пенсионер,0,199707,покупка жилья для сдачи,"[покупка, , жилье, , для, , сдача, \n]",сдача
104,0,366323,59,среднее,1,Не женат / не замужем,4,F,пенсионер,0,163581,покупка жилья для сдачи,"[покупка, , жилье, , для, , сдача, \n]",сдача
123,2,5718,39,среднее,1,женат / замужем,0,M,сотрудник,0,83892,покупка жилья для сдачи,"[покупка, , жилье, , для, , сдача, \n]",сдача
160,0,2063,45,среднее,1,гражданский брак,1,M,сотрудник,0,198386,покупка жилья для сдачи,"[покупка, , жилье, , для, , сдача, \n]",сдача
184,0,369682,57,высшее,0,женат / замужем,0,M,пенсионер,0,141337,покупка жилья для сдачи,"[покупка, , жилье, , для, , сдача, \n]",сдача
296,0,741,43,высшее,0,женат / замужем,0,F,сотрудник,0,203323,покупка жилья для сдачи,"[покупка, , жилье, , для, , сдача, \n]",сдача
312,1,2194,33,среднее,1,гражданский брак,1,M,сотрудник,1,145017,покупка жилья для сдачи,"[покупка, , жилье, , для, , сдача, \n]",сдача
323,0,1419,64,среднее,1,женат / замужем,0,M,компаньон,0,227706,покупка жилья для сдачи,"[покупка, , жилье, , для, , сдача, \n]",сдача
359,0,133,44,высшее,0,гражданский брак,1,F,компаньон,0,149071,покупка жилья для сдачи,"[покупка, , жилье, , для, , сдача, \n]",сдача


В поле purpose видим основную цель 'покупка жилья для сдачи'. То есть речь идёт о приобретении недвижимости для её последующей сдачи в аренду. 

Проверим гипотезу о том, что семантически так или иначе все значения поля purpose соответствуют цели приобретения недвижимости для её последующей сдачи в аренду.

In [93]:
df[df['purpose_categ'] == 'сдача']['purpose'].value_counts()

покупка жилья для сдачи    651
Name: purpose, dtype: int64

Видим подтверждение гипотезы о том, что поле со значением "сдача" в поле purpose_categ на самом деле означает приобретение недвижимости для её последующей сдачи в аренду. 

Так как в поле purpose_categ уже есть категория "недвижимость", целесообразно в поле purpose_categ заменить категорию "сдача" на категорию "недвижимость", так как речь идёт об одной и той же операции - приобретении недвижимости в кредит. Отмечу также, что замена осуществляется на "недвижимость", а не на "жильё", потому как приобретение недвижимости для её последующей сдачи в аренду - коммерческая операция, направленная на извлечение прибыли, а приобретения жилья для жизни - бытовая некоммерческая нужда.

Для этого воспользуемся методом .repalce()

In [94]:
df['purpose_categ'] = df['purpose_categ'].replace('сдача', 'недвижимость')

In [95]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,purpose_categ
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]",жилье
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]",жилье
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]",образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]",свадьба
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья


Проверим, корректно ли совершена замена. Для этого вызовем метод .value_counts() к полю "purpose_categ" и проверим, есть ли там значение "сдача". Вместе с тем количество значений поля "недвижимость" должно увеличиться на 651. Напомним, что ранее количество этих значений в поле purpose_categ составляло 6350.

In [96]:
df['purpose_categ'].value_counts()

недвижимость    7001
автомобиль      4306
образование     4013
жилье           3171
свадьба         2324
семья            638
Name: purpose_categ, dtype: int64

Видим, что замена осуществлена корректно.

Аналогичным образом проверим значение "семья" поля purpose_categ.

In [97]:
df[df['purpose_categ'] == 'семья'].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,purpose_categ
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья
67,0,2194,52,высшее,0,женат / замужем,0,F,пенсионер,0,145017,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья
74,1,5110,45,среднее,1,женат / замужем,0,F,сотрудник,0,81142,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья
181,0,2194,26,среднее,1,гражданский брак,1,F,компаньон,1,145017,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья
214,2,1321,41,неоконченное высшее,2,женат / замужем,0,F,сотрудник,0,314546,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья
231,1,144,41,среднее,1,женат / замужем,0,F,сотрудник,1,112090,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья
260,1,1710,29,среднее,1,гражданский брак,1,F,компаньон,0,286533,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья
316,0,740,34,среднее,1,Не женат / не замужем,4,M,госслужащий,0,202125,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья
350,0,395899,64,среднее,1,вдовец / вдова,2,F,пенсионер,0,149716,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья
431,0,8575,46,среднее,1,женат / замужем,0,F,госслужащий,0,111755,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",семья


В поле purpose видим основную цель 'покупка жилья для семьи'. То есть речь идёт о приобретении недвижимости для последующего в ней проживания членов семьи. 

Проверим гипотезу о том, что семантически так или иначе все значения поля purpose соответствуют цели приобретения недвижимости для её последующей сдачи в аренду.

In [98]:
df[df['purpose_categ'] == 'семья']['purpose'].value_counts()

покупка жилья для семьи    638
Name: purpose, dtype: int64

Видим подтверждение гипотезы о том, что поле со значением "семья" в поле purpose_categ на самом деле означает приобретение недвижимости для последующего в ней проживания членов семьи. 

Так как в поле purpose_categ уже есть категория "жильё", целесообразно в поле purpose_categ заменить категорию "сдача" на категорию "жильё", так как речь идёт об одной и той же операции - приобретении недвижимости в кредит. 

Отмечу также, что замена осуществляется на "жильё", а не на "недвижмость", потому как приобретение недвижимости для последующего в ней проживания членов семьи, в отличие от предыдущего этапа - некоммерческая операция, не направленная на извлечение прибыли, а в большей степени бытовая некоммерческая нужда.

Для этого воспользуемся методом .repalce()

In [99]:
df['purpose_categ'] = df['purpose_categ'].replace('семья', 'жилье')

In [100]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,purpose_categ
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,"[операция, , с, , жилье, \n]",жилье
21449,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,"[сделка, , с, , автомобиль, \n]",автомобиль
21450,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,"[недвижимость, \n]",недвижимость
21451,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,"[на, , покупка, , свой, , автомобиль, \n]",автомобиль


Проверим, корректно ли совершена замена. Для этого вызовем метод .value_counts() к полю "purpose_categ" и проверим, есть ли там значение "семья". Вместе с тем количество значений поля "жилье" должно увеличиться на 638. Напомним, что ранее количество этих значений в поле purpose_categ составляло 3171.

In [101]:
df['purpose_categ'].value_counts()

недвижимость    7001
автомобиль      4306
образование     4013
жилье           3809
свадьба         2324
Name: purpose_categ, dtype: int64

Видим, что замена осуществлена корректно.

По результатам категоризации видно, что наиболее востребованным направлением кредитования является приобретение недвижимости. 

Процентное соотношение направлений распределено следующим образом:

- недвижимость = 32,63%
- автомобиль = 20,07%
- образование = 18,71%
- жилье = 17,76%
- свадьба = 10,83%

<a href='#title'>К оглавлению.</a> 

<a id='2.6.2'></a> 
### Этап 2.6.2. Категоризация признака "dob_years".

Следующий шаг категоризации - категоризация признака dob_years. 
Для категоризации по этому полю введём три возрастные группы, в качестве критериев формирования категорий будем использовать следующие возрастные диапазоны:

- Клиенты младше 18 лет попадают в категорию «несовершеннолетний»;
- Клиенты от 19 до 64 лет — категория «взрослый»;
- Клиенты старше 65 лет принадлежат к категории «пенсионер».

Для осуществления категоризации напишем функцию, которая будет принимать значение возраста из поля dob_years, а соответствующую категорию вносить в новое поле dob_years_categ.

In [102]:
def dob_years_categ(dob_years):
    if dob_years < 18:
        return 'несовершеннолетний'
    elif 18 <= dob_years <= 64:
        return 'взрослый'
    else:
        return 'пенсионер'

In [103]:
print(dob_years_categ(17))
print(dob_years_categ(34))
print(dob_years_categ(82))

несовершеннолетний
взрослый
пенсионер


Видим, что функция работает корректно на тестовых данных.

Для выполнения функции создаём новое поле dob_years_categ, в которое будем передавать результат работы функции dob_years_categ.

In [104]:
df['dob_years_categ'] = df['dob_years'].apply(dob_years_categ)

In [105]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,purpose_categ,dob_years_categ
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",жилье,взрослый
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,взрослый
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",жилье,взрослый
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,взрослый
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,взрослый
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,"[операция, , с, , жилье, \n]",жилье,взрослый
21449,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,"[сделка, , с, , автомобиль, \n]",автомобиль,пенсионер
21450,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,"[недвижимость, \n]",недвижимость,взрослый
21451,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,"[на, , покупка, , свой, , автомобиль, \n]",автомобиль,взрослый


Видим, что в DF появилось поле dob_years_categ, которое содержит категории, сформированные на основе возраста клиентов.

Получим и сосчитаем уникальные значения поля dob_years_categ.

In [106]:
df['dob_years_categ'].value_counts()

взрослый     20558
пенсионер      895
Name: dob_years_categ, dtype: int64

Видим, что основную массу клиентов в статистике платёжеспособности составляют взрослые (95,82%). Несовершеннолетних в статистике нет, что кажется логичным ввиду законодательного ограничения по возрасту, когда кредит может получить лицо, достигшее 18-21 года (зависит от кредитной политики банка и требований регулятора).

<a href='#title'>К оглавлению.</a> 

<a id='2.6.3'></a> 
### Этап 2.6.3. Категоризация признака "income_type".

Для категоризации признака income_type для начала рассмотрим уникальные значения типов занятости, которые есть в поле income_type.

In [107]:
df['income_type'].value_counts()

сотрудник          11084
компаньон           5077
пенсионер           3829
госслужащий         1457
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

Введём следующие критерии категоризации типов занятости (отмечу, что она эмпирическая и основана чисто на моём видении тех, кто формирует вклад в отечественный ВВП):

- типы занятости "пенсионер", "безработный", "в декрете" и "студент" объединяем в категорию "незанятый в экономике";
- прочие типы занятости объединяем в категорию "занятый в экономике".

Для осуществления категоризации напишем функцию, которая будет принимать значение типа занятости из поля income_type, а соответствующую категорию вносить в новое поле income_type_categ.

In [108]:
def income_type_categ(income_type):
    if income_type in ['пенсионер', 'безработный', 'в декрете', 'студент']:
        return 'незанятый в экономике'
    else:
        return 'занятый в экономике'

In [109]:
print(income_type_categ('пенсионер'))
print(income_type_categ('безработный'))
print(income_type_categ('в декрете'))
print(income_type_categ('студент'))
print(income_type_categ('сотрудник'))
print(income_type_categ('госслужащий'))

незанятый в экономике
незанятый в экономике
незанятый в экономике
незанятый в экономике
занятый в экономике
занятый в экономике


Видим, что функция работает корректно на тестовых данных.

Для выполнения функции создаём новое поле income_type_categ, в которое будем передавать результат работы функции income_type_categ.

In [110]:
df['income_type_categ'] = df['income_type'].apply(income_type_categ)

In [111]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,purpose_categ,dob_years_categ,income_type_categ
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",жилье,взрослый,занятый в экономике
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,взрослый,занятый в экономике
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",жилье,взрослый,занятый в экономике
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,взрослый,занятый в экономике
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,взрослый,незанятый в экономике
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,"[операция, , с, , жилье, \n]",жилье,взрослый,занятый в экономике
21449,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,"[сделка, , с, , автомобиль, \n]",автомобиль,пенсионер,незанятый в экономике
21450,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,"[недвижимость, \n]",недвижимость,взрослый,занятый в экономике
21451,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,"[на, , покупка, , свой, , автомобиль, \n]",автомобиль,взрослый,занятый в экономике


Видим, что в DF появилось поле income_type_categ, которое содержит категории, сформированные на основе типа занятости клиентов.

Получим и сосчитаем уникальные значения поля income_type_categ.

In [112]:
df['income_type_categ'].value_counts()

занятый в экономике      17620
незанятый в экономике     3833
Name: income_type_categ, dtype: int64

Видим, что основную массу клиентов в статистике платёжеспособности составляют занятые в экономике (82,13% от общего количества клиентов).

Незанятые в экономике также присутствуют в статистике платёжеспособности, и этот факт нужно проанализировать глубже, так как незанятые в экономике обычно не имеют стабильного источника дохода, а кредитование отдельных категорий граждан (пенсионеров, безработных, студентов, женщин в декретном отпуске) не предусматривается в кредитной политике некоторых банков.

<a href='#title'>К оглавлению.</a> 

<a id='2.6.4'></a> 
### Этап 2.6.4. Категоризация признака "children".

Категоризация признака children основана на следующих критериях:

- если количество детей равно нулю, клиент относится к категории "нет детей";
- если количество детей меньше нуля, клиент относится к категории "аномальное значение данных";
- если количество детей лежит в диапазоне от 1 до 2 (включительно), клиент относится к категории "стандартное количество детей";
- если количество детей больше 2, клиент относится к категории "многодетная семья".

Для осуществления категоризации напишем функцию, которая будет принимать количество детей клиента из поля children, а соответствующую категорию вносить в новое поле children_categ.

In [113]:
def children_categ(children):
    if children == 0:
        return 'нет детей'
    elif 1 <= children <= 2:
        return 'стандартное количество детей'
    elif children > 2:
        return 'многодетная семья'
    elif children < 0:
        return 'аномальное значение данных'

In [114]:
print(children_categ(0))
print(children_categ(10))
print(children_categ(1))
print(children_categ(-3))

нет детей
многодетная семья
стандартное количество детей
аномальное значение данных


Видим, что функция работает корректно на тестовых данных.

Для выполнения функции создаём новое поле children_categ, в которое будем передавать результат работы функции children_categ.

In [115]:
df['children_categ'] = df['children'].apply(children_categ)

Посмотрим на DF после категоризации количества детей у клиента.

In [116]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,purpose_categ,dob_years_categ,income_type_categ,children_categ
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",жилье,взрослый,занятый в экономике,стандартное количество детей
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,взрослый,занятый в экономике,стандартное количество детей
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",жилье,взрослый,занятый в экономике,нет детей
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,взрослый,занятый в экономике,многодетная семья
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,взрослый,незанятый в экономике,нет детей
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,"[операция, , с, , жилье, \n]",жилье,взрослый,занятый в экономике,стандартное количество детей
21449,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,"[сделка, , с, , автомобиль, \n]",автомобиль,пенсионер,незанятый в экономике,нет детей
21450,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,"[недвижимость, \n]",недвижимость,взрослый,занятый в экономике,стандартное количество детей
21451,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,"[на, , покупка, , свой, , автомобиль, \n]",автомобиль,взрослый,занятый в экономике,многодетная семья


Видим, что в DF появилось поле children_categ, которое содержит категории, сформированные на основе количества детей у клиентов.

Получим и сосчитаем уникальные значения поля children_categ.

In [117]:
df['children_categ'].value_counts()

нет детей                       14090
стандартное количество детей     6983
многодетная семья                 380
Name: children_categ, dtype: int64

Видим, что почти 2/3 клиентов в статистике платёжеспособности составляют клиенты без детей (65,68% от общего количества клиентов). 1/3 делят между собой клиенты, имеющие 1-2 детей (32,55% от общего количества клиентов), и многодетные семьи (1,77% от общего количества клиентов).

<a href='#title'>К оглавлению.</a> 

<a id='2.6.5'></a> 
### Этап 2.6.5. Категоризация признака "total_income".

Для выработки критериев категоризации признака total_income рассмотрим DF, отсортированный по полю total_income в порядке возрастания.

In [118]:
df.sort_values('total_income', ascending = True)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,purpose_categ,dob_years_categ,income_type_categ,children_categ
14554,0,359219,57,среднее,1,женат / замужем,0,F,пенсионер,1,20667,недвижимость,"[недвижимость, \n]",недвижимость,взрослый,незанятый в экономике,нет детей
12982,0,369708,37,среднее,1,гражданский брак,1,M,пенсионер,0,21205,заняться высшим образованием,"[заниматься, , высокий, , образование, \n]",образование,взрослый,незанятый в экономике,нет детей
16137,1,3642,52,среднее,1,женат / замужем,0,M,сотрудник,0,21367,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,взрослый,занятый в экономике,стандартное количество детей
1598,0,359726,68,среднее,1,гражданский брак,1,M,пенсионер,0,21695,на проведение свадьбы,"[на, , проведение, , свадьба, \n]",свадьба,пенсионер,незанятый в экономике,нет детей
14246,0,346602,61,среднее,1,женат / замужем,0,F,пенсионер,0,21895,недвижимость,"[недвижимость, \n]",недвижимость,взрослый,незанятый в экономике,нет детей
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17136,0,5734,42,высшее,0,гражданский брак,1,M,компаньон,0,1711309,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,взрослый,занятый в экономике,нет детей
20741,0,4719,61,среднее,1,Не женат / не замужем,4,F,сотрудник,0,1715018,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",жилье,взрослый,занятый в экономике,нет детей
9159,1,5248,35,среднее,1,гражданский брак,1,M,сотрудник,0,1726276,дополнительное образование,"[дополнительный, , образование, \n]",образование,взрослый,занятый в экономике,стандартное количество детей
19547,1,2577,39,высшее,0,женат / замужем,0,M,компаньон,1,2200852,строительство недвижимости,"[строительство, , недвижимость, \n]",недвижимость,взрослый,занятый в экономике,стандартное количество детей


Из таблицы видно, что минимальный размер ежемесячного дохода составляет 20 0667 ед., а максимальный - 2 265 604.

Таким образом, категоризировать данные можно следующим образом:

- клиенты с уровнем ежемесячного дохода до 100 000 включительно относятся к группе "низкий доход";
- клиенты с уровнем ежемесячного дохода выше 100 000, но не превышающим 500 000 включительно, относятся к группе "средний доход";
- клиенты с уровнем ежемесячного дохода выше 500 000 включительно относятся к группе "высокий доход".

Для осуществления категоризации напишем функцию, которая будет принимать на вход уровень ежемесячного дохода клиента из поля total_income, а соответствующую категорию вносить в новое поле total_income_categ.

In [119]:
def total_income_categ(total_income):
    if total_income <= 100000:
        return 'низкий доход'
    elif 100000 < total_income <= 500000:
        return 'средний доход'
    elif total_income > 500000:
        return 'высокий доход'

In [120]:
print(total_income_categ(0))
print(total_income_categ(49999))
print(total_income_categ(100000))
print(total_income_categ(100001))
print(total_income_categ(2000001))

низкий доход
низкий доход
низкий доход
средний доход
высокий доход


Видим, что функция работает корректно на тестовых данных.

Для выполнения функции создаём новое поле total_income_categ, в которое будем передавать результат работы функции total_income_categ.

In [121]:
df['total_income_categ'] = df['total_income'].apply(total_income_categ)

In [122]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,purpose_categ,dob_years_categ,income_type_categ,children_categ,total_income_categ
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",жилье,взрослый,занятый в экономике,стандартное количество детей,средний доход
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,взрослый,занятый в экономике,стандартное количество детей,средний доход
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",жилье,взрослый,занятый в экономике,нет детей,средний доход
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,взрослый,занятый в экономике,многодетная семья,средний доход
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,взрослый,незанятый в экономике,нет детей,средний доход
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,"[операция, , с, , жилье, \n]",жилье,взрослый,занятый в экономике,стандартное количество детей,средний доход
21449,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,"[сделка, , с, , автомобиль, \n]",автомобиль,пенсионер,незанятый в экономике,нет детей,средний доход
21450,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,"[недвижимость, \n]",недвижимость,взрослый,занятый в экономике,стандартное количество детей,низкий доход
21451,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,"[на, , покупка, , свой, , автомобиль, \n]",автомобиль,взрослый,занятый в экономике,многодетная семья,средний доход


Видим, что в DF появилось поле total_income_categ, которое содержит категории, сформированные на основе ежемесячного дохода клиентов.

Для проверки корректности работы функции выведем и посчитаем уникальные значения поля total_income_categ, при этом к DF применим логическую фильтрацию по уровню ежемесячного дохода для каждой из категории.

In [123]:
df[df['total_income'] <= 100000]['total_income_categ'].value_counts()

низкий доход    4463
Name: total_income_categ, dtype: int64

In [124]:
df[(df['total_income'] > 100000) & (df['total_income'] <= 500000)]['total_income_categ'].value_counts()

средний доход    16768
Name: total_income_categ, dtype: int64

In [125]:
df[df['total_income'] > 500000]['total_income_categ'].value_counts()

высокий доход    222
Name: total_income_categ, dtype: int64

Видим, что в каждом их трёх DF, отфильтрованных по уровню ежемесячного дохода в соответствии с логикой категоризации, содержатся записи только о нужных клиентах, из чего заключаем, что функция работает корректно.

По итогам категоризации можно сделать вывод о том, что основная масса клиентов, о которых есть записи в статистике платёжеспособности, относятся к группе клиентов со средним доходом, на их долю приходится 78,16% от общего количества клиентов. На долю клиентов с низким уровнем дохода приходится 20,80% клиентов. Доля клиентов с высоким уровнем дохода незначительна и составляет 1,03% от общего числа клиентов.

<a href='#title'>К оглавлению.</a> 

# Выводы по этапу 2.

На данном этапе была проведена предобработка данных, заключающаяся в:

- обработке пропущенных значений;

- обработке аномальных значений;

- замене типов данных;

- обработке дубликатов;

- лемматизации;

- категоризации данных.

Отметим некоторые результаты по каждому из направлений.

### Выводы по обработке пропущенных и аномальных значений.

На этапе 1 удалось идентифицировать следующие пропущенные и аномальные значения в полях DF:

- в полях days_employed и total_income были пропущенные значения, которые не зависели ни от значений в собственных полях, ни от значения в других полях df;
- в поле days_employed находились как положительные, так и отрицательные значения. Положительные значения были характерны для типов занятости "пенсионер" и "безработный", отрицательные - для всех остальных;
- в поле children были аномальные значения "20" и "-1";
- в поле dob_year было аномальное значение "0";
- в поле gender было аномальное значение "XNA".

Для обработки пропущенных и аномальных значений были применены следующие действия:

- все отрицательные значения поля days_employed были преобразованы в положительные путём применения соответствующей функции, пропущенные значения поля days_employed были заменены на медианное значение общего трудового стажа, которое было рассчитано на преобразованных значений поля без учёта пропущенных значений;
- пропущенные значения поля total_income были заменены на медианное значение ежемесячного дохода, рассчитанного без учёта пропущенных значений;
- аномальные значения поля children были преобразованы путём применения соответствующей функции, заменяющей значение "20" на значение "2", а значение "-1" на значение "1";
- аномальное значение поля dob_year было заменено на средний возраст клиентов, рассчитанный без учёта аномальных значений;
- аномальное значение поля gender было удалено из DF в силу незначимости для проекта и незначительного количества аномальных значений в поле.

### Выводы по замене типов данных

С помощью метода .astype() удалось преобразовать значения полей days_employed и income_type из float в int.

С помощью приведения значений поля education удалось сократить количество уникальных значений поля education с 15 до 5.

### Выводы по обработке дубликатов

В DF выявлен 71 дубликат, обусловленный наличием одинаковых значений в полях days_employed и total_income, при этом с учётом анализа связанных полей было установлено, что речь идёт не о статистике платёжеспособности одного и того же клиента.

Дубликаты были выявлены с помощью метода .duplicated().sum(), применённому к DF.

Удаление дубликатов было осуществлено с помощью метода .drop_duplicates(). Вторичная проверка после применения .drop_duplicates() показала, что DF был успешно очищен от дубликатов.

### Выводы по лемматизации

Лемматизация реализована за счёт применения функции purpose_lemma, которая принимает на вход строку с текстом из поля purpose, выделяет в ней леммы и помещает их в виде списка в новое поле lemma.

### Вывод по категоризации данных

Категоризация данных была осуществлена по следующим полям:
- dob_years;
- income_type;
- lemma;
- children;
- total_income.

По возрасту клиенты категоризировались на следующие группы:
- клиенты младше 18 лет попадают в категорию «несовершеннолетний»;
- клиенты от 19 до 64 лет — категория «взрослый»;
- клиенты старше 65 лет принадлежат к категории «пенсионер».

Категоризация по возрасту позволила сделать вывод о том, что основную массу клиентов в статистике платёжеспособности составляют взрослые (95,82%). Несовершеннолетних в статистике нет, что кажется логичным ввиду законодательного ограничения по возрасту, когда кредит может получить лицо, достигшее 18-21 года (зависит от кредитной политики банка и требований регулятора).

По типу занятости клиенты категоризировались на следующие группы:

- типы занятости "пенсионер", "безработный", "в декрете" и "студент" объединяем в категорию "незанятый в экономике";
- прочие типы занятости объединяем в категорию "занятый в экономике".

Категоризация по типу занятости позволила сделать вывод о том, что основную массу клиентов в статистике платёжеспособности составляют занятые в экономике (82,13% от общего количества клиентов).
Незанятые в экономике также присутствуют в статистике платёжеспособности, и этот факт нужно проанализировать глубже, так как незанятые в экономике обычно не имеют стабильного источника дохода, а кредитование отдельных категорий граждан (пенсионеров, безработных, студентов, женщин в декретном отпуске) не предусматривается в кредитной политике некоторых банков. 

По количеству детей клиенты категоризировались на следующие группы:

- если количество детей равно нулю, клиент относится к категории "нет детей";
- если количество детей меньше нуля, клиент относится к категории "аномальное значение данных";
- если количество детей лежит в диапазоне от 1 до 2 (включительно), клиент относится к категории "стандартное количество детей";
- если количество детей больше 2, клиент относится к категории "многодетная семья".

Категоризация по количеству детей позволила сделать вывод о том, что почти 2/3 клиентов в статистике платёжеспособности составляют клиенты без детей (65,68% от общего количества клиентов). 1/3 делят между собой клиенты, имеющие 1-2 детей (32,55% от общего количества клиентов), и многодетные семьи (1,77% от общего количества клиентов).

Категоризация по леммам позволила категоризировать цели кредитования, превратив поле purpose, содержащее строку с несколькими словами, в поле purpose_categ, содержащее категорию цели кредитования, выраженную одним словом.

По леммам целей кредитования клиенты категоризировались на следующие группы:

- недвижимость;
- автомобиль;
- образование;
- жилье;
- свадьба.

По результатам категоризации видно, что наиболее востребованным направлением кредитования является приобретение недвижимости. 

Процентное соотношение направлений распределено следующим образом:

- недвижимость = 32,63%;
- автомобиль = 20,07%;
- образование = 18,71%;
- жилье = 17,76%;
- свадьба = 10,83%.

По уровню ежемесячного дохода клиенты категоризировались на следующие группы:

- клиенты с уровнем ежемесячного дохода до 100 000 включительно относятся к группе "низкий доход";
- клиенты с уровнем ежемесячного дохода выше 100 000, но не превышающим 500 000 включительно, относятся к группе "средний доход";
- клиенты с уровнем ежемесячного дохода выше 500 000 включительно относятся к группе "высокий доход".

Результаты категоризации позволили прийти к выводу о том, что основная масса клиентов, о которых есть записи в статистике платёжеспособности, относятся к группе клиентов со средним доходом, на их долю приходится 78,16% от общего количества клиентов. На долю клиентов с низким уровнем дохода приходится 20,80% клиентов. Доля клиентов с высоким уровнем дохода незначительна и составляет 1,03% от общего числа клиентов.

<a href='#title'>К оглавлению.</a> 

<a id='3'></a> 
# Этап 3. Вопросы.

Для 3 этапа сформируем новый DF, так как в изначальном большое количество неинформативных полей, которые были категоризированы или преобразованы.

In [126]:
df_total = df[['days_employed', 'dob_years_categ', 'education', 'family_status', 'children_categ', 
               'income_type_categ', 'total_income', 'total_income_categ', 'purpose_categ', 'debt']]

In [127]:
df_total

Unnamed: 0,days_employed,dob_years_categ,education,family_status,children_categ,income_type_categ,total_income,total_income_categ,purpose_categ,debt
0,8437,взрослый,высшее,женат / замужем,стандартное количество детей,занятый в экономике,253875,средний доход,жилье,0
1,4024,взрослый,среднее,женат / замужем,стандартное количество детей,занятый в экономике,112080,средний доход,автомобиль,0
2,5623,взрослый,среднее,женат / замужем,нет детей,занятый в экономике,145885,средний доход,жилье,0
3,4124,взрослый,среднее,женат / замужем,многодетная семья,занятый в экономике,267628,средний доход,образование,0
4,340266,взрослый,среднее,гражданский брак,нет детей,незанятый в экономике,158616,средний доход,свадьба,0
...,...,...,...,...,...,...,...,...,...,...
21448,4529,взрослый,среднее,гражданский брак,стандартное количество детей,занятый в экономике,224791,средний доход,жилье,0
21449,343937,пенсионер,среднее,женат / замужем,нет детей,незанятый в экономике,155999,средний доход,автомобиль,0
21450,2113,взрослый,среднее,гражданский брак,стандартное количество детей,занятый в экономике,89672,низкий доход,недвижимость,1
21451,3112,взрослый,среднее,женат / замужем,многодетная семья,занятый в экономике,244093,средний доход,автомобиль,1


<a href='#title'>К оглавлению.</a> 

<a id='3.1'></a> 
## Этап 3.1. Вопрос "Есть ли зависимость между наличием детей и возвратом кредита в срок?".

In [128]:
df_total.groupby(['children_categ', 'debt'])['debt'].count()

children_categ                debt
многодетная семья             0         349
                              1          31
нет детей                     0       13027
                              1        1063
стандартное количество детей  0        6336
                              1         647
Name: debt, dtype: int64

Многодетные семьи в меньшей степени склонны к невозврату кредита в срок, чего не скажешь о клиентах, у которых детей нет, так как на эту группу приходится наибольшее количество невозвращённых в срок кредитов. 

На втором месте по недобросовестной платёжной дисциплине клиенты, у которых 1 или 2 ребёнка: на просрочку выходят реже бездетных, но всё равно нет-нет да не платят. 

Лучшую платёжную дисциплину показывают многодетные семьи, которые на фоне остальных групп почти не выходят на просрочку. Дал Бог зайку, даст и кредит заплатить? Или дело в скрупулёзном планировании бюджета большой и крепкой ячейки общества? Непонятно...

Однако факт есть факт: при проведении кредитных кампаний многодетные семьи - наш кандидат. А если денег останется - можно обычным семьям насыпать. Но осторожно...

<a href='#title'>К оглавлению.</a> 

<a id='3.2'></a> 
## Этап 3.2. Вопрос "Есть ли зависимость между семейным положением и возвратом кредита в срок?".

In [129]:
df_total.groupby(['family_status', 'debt'])['debt'].count()

family_status          debt
Не женат / не замужем  0        2536
                       1         274
в разводе              0        1110
                       1          85
вдовец / вдова         0         896
                       1          63
гражданский брак       0        3762
                       1         388
женат / замужем        0       11408
                       1         931
Name: debt, dtype: int64

Ну а тут вообще как в анекдоте: наихудшую платёжную дисциплину демонстрируют клиенты, состоящие в браке. Может, дело в жене, нашедшей заначку супруга, которую тот планировал пустить на утоление банковских аппетитов? Или супруга, увидевшая в салоне новую шубку, решила, что и без хорошей кредитной истории люди на Руси жили и выживали как-то? Ответ - в анналах истории, а не в нашей статистике. 

Гражданский брак почти ноздя в ноздрю идёт с клиентами, которые пока не пришли к благам, сулимым узами брака: оба демонстрируют довольно приемлемую платёжную дисциплину. Просрочек относительно немного, но кто из нас не делает ошибки?

Наиболее ответственно подходят к погашению задолженности разведённые и утратившие половинку. Возможно, потеря делает человека более ответственным? 

Из сказанного делаем вывод, что если в графе "семейное положение" указано "разведён/разведена" или "вдовец/вдова", кредит, скорее всего, погасят вовремя. А вот у семейной пары лучше требовать поручителя.

<a href='#title'>К оглавлению.</a> 

<a id='3.3'></a> 
## Этап 3.3. Вопрос "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?".

In [130]:
df.groupby(['total_income_categ', 'debt'])['debt'].count()

total_income_categ  debt
высокий доход       0         208
                    1          14
низкий доход        0        4109
                    1         354
средний доход       0       15395
                    1        1373
Name: debt, dtype: int64

Видим, что наиболее ответственно к погашению кредитов относятся люди с высоким уровнем дохода. А почему? Потому что богатые люди знают цену деньгам и предпочтут не платить банку лишние проценты/пени за просрочку. Потому-то и доход высокий.

Клиенты с низким доходом допускают больше просрочек: возможно, низкий уровень дохода не всегда позволяет вовремя заплатить, однако колоссальная разница с количеством просрочек у клиентов со средним уровнем дохода подсказывает, что клиенты с низким уровнем дохода всё же стараются. Мы всё понимаем, клиент с низкими доходами, всё понимаем. 

Группа клиентов со средним уровнем дохода - самая большая, поэтому тот факт, что на эту группу приходится и наибольшее количество просрочек, в целом не провоцирует каких-то инсинуаций за пальму первенства по худшей платёжной дисциплине.

В целом, конечно, банкам стоит ориентироваться на высокодоходный сегмент клиентов, так как вероятность непогашения кредита у этой группы минимальна, но это понятно не только Data Scientist, но и ежу, и банки тоже знают, кому продавать.

<a href='#title'>К оглавлению.</a> 

<a id='3.4'></a> 
## Этап 3.4. Вопрос "Как разные цели кредита влияют на его возврат в срок?".

In [131]:
df.groupby(['purpose_categ', 'debt'])['debt'].count()

purpose_categ  debt
автомобиль     0       3903
               1        403
жилье          0       3553
               1        256
недвижимость   0       6475
               1        526
образование    0       3643
               1        370
свадьба        0       2138
               1        186
Name: debt, dtype: int64

Кредитование недвижимости всегда является рисковым предприятием, так как для этого вида кредита характерны наиболее высокие ежемесячные платежи. Справедливо, что именно для этой категории кредитов наблюдается наибольшее количество просроченных кредитов.

Следом за недвижимостью идут автомобили: если брать дорогой автомобиль в кредит с дополнительным сервисом за деньги банка, эта лошадка может съесть весь доход за счёт текущего обслуживания, не оставив средств на погашение кредитов банка. Заслуженное второе место.

Образование также демонстрирует высокий уровень непогашенных в срок кредитов. Но обучение - дело благое, а то, что кредитополучатель, света белого не видя за уничтожением гранита науки, забыл заплатить - так это бывает. Со стипендии отдаст. А то сейчас даже на еду нет.

Кредиты на свадьбу оказались самыми надёжными. Конечно, зачем брать кредит на свадьбу - большой вопрос, но вне рамок курса. Но уж если взяли - надо отдать. Хорошее совместное испытание для новоиспечённой ячейки общества.

<a href='#title'>К оглавлению.</a> 

# Выводы по этапу 3.

На данном этапе были даны отвтеты на главные вопросы проекта.

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Многодетные семьи в меньшей степени склонны к невозврату кредита в срок, чего не скажешь о клиентах, у которых детей нет, так как на эту группу приходится наибольшее количество невозвращённых в срок кредитов.

На втором месте по недобросовестной платёжной дисциплине клиенты, у которых 1 или 2 ребёнка: на просрочку выходят реже бездетных, но всё равно нет-нет да не платят.

Лучшую платёжную дисциплину показывают многодетные семьи, которые на фоне остальных групп почти не выходят на просрочку. Дал Бог зайку, даст и кредит заплатить? Или дело в скрупулёзном планировании бюджета большой и крепкой ячейки общества? Непонятно...

Однако факт есть факт: при проведении кредитных кампаний многодетные семьи - наш кандидат. А если денег останется - можно обычным семьям насыпать. Но осторожно...

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

Ну а тут вообще как в анекдоте: наихудшую платёжную дисциплину демонстрируют клиенты, состоящие в браке. Может, дело в жене, нашедшей заначку супруга, которую тот планировал пустить на утоление банковских аппетитов? Или супруга, увидевшая в салоне новую шубку, решила, что и без хорошей кредитной истории люди на Руси жили и выживали как-то? Ответ - в анналах истории, а не в нашей статистике.

Гражданский брак почти ноздя в ноздрю идёт с клиентами, которые пока не пришли к благам, сулимым узами брака: оба демонстрируют довольно приемлемую платёжную дисциплину. Просрочек относительно немного, но кто из нас не делает ошибки?

Наиболее ответственно подходят к погашению задолженности разведённые и утратившие половинку. Возможно, потеря делает человека более ответственным?

Из сказанного делаем вывод, что если в графе "семейное положение" указано "разведён/разведена" или "вдовец/вдова", кредит, скорее всего, погасят вовремя. А вот у семейной пары лучше требовать поручителя.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Видим, что наиболее ответственно к погашению кредитов относятся люди с высоким уровнем дохода. А почему? Потому что богатые люди знают цену деньгам и предпочтут не платить банку лишние проценты/пени за просрочку. Потому-то и доход высокий.

Клиенты с низким доходом допускают больше просрочек: возможно, низкий уровень дохода не всегда позволяет вовремя заплатить, однако колоссальная разница с количеством просрочек у клиентов со средним уровнем дохода подсказывает, что клиенты с низким уровнем дохода всё же стараются. Мы всё понимаем, клиент с низкими доходами, всё понимаем.

Группа клиентов со средним уровнем дохода - самая большая, поэтому тот факт, что на эту группу приходится и наибольшее количество просрочек, в целом не провоцирует каких-то инсинуаций за пальму первенства по худшей платёжной дисциплине.

В целом, конечно, банкам стоит ориентироваться на высокодоходный сегмент клиентов, так как вероятность непогашения кредита у этой группы минимальна, но это понятно не только Data Scientist, но и ежу, и банки тоже знают, кому продавать.

- Как разные цели кредита влияют на его возврат в срок?

Кредитование недвижимости всегда является рисковым предприятием, так как для этого вида кредита характерны наиболее высокие ежемесячные платежи. Справедливо, что именно для этой категории кредитов наблюдается наибольшее количество просроченных кредитов.

Следом за недвижимостью идут автомобили: если брать дорогой автомобиль в кредит с дополнительным сервисом за деньги банка, эта лошадка может съесть весь доход за счёт текущего обслуживания, не оставив средств на погашение кредитов банка. Заслуженное второе место.

Образование также демонстрирует высокий уровень непогашенных в срок кредитов. Но обучение - дело благое, а то, что кредитополучатель, света белого не видя за уничтожением гранита науки, забыл заплатить - так это бывает. Со стипендии отдаст. А то сейчас даже на еду нет.

Кредиты на свадьбу оказались самыми надёжными. Конечно, зачем брать кредит на свадьбу - большой вопрос, но вне рамок курса. Но уж если взяли - надо отдать. Хорошее совместное испытание для новоиспечённой ячейки общества.

<a href='#title'>К оглавлению.</a> 

# Итоговый вывод по проекту.

Целью проекта было исследование различной информации о заёмщиков банка для выделения общих признаков, характерных для потенциальных неплательщиков.

Проект выполнялся в следующем порядке:

1. Импорт библиотек, считывание и первичный анализ данных.

2. Предобработка данных.

3. Вопросы.


Отметим основные выводы.

# Вывод по этапу 1.
Набор данных состоит из 12 признаков, каждый признак включает в себя 21525 строк.

Типы данных DF:
- дробные числа (с плавающей точкой) - 2 колонки;
- целые числа - 5 колонок;
- категориальные поля - 5 колонок.

Предварительно видим, что колонки days_employed и total_income содержат 19351 запись, в то время как остальные колонки содержат 21525 записей.  
Учитывая семантический смысл, заложенный в наименование колонки, можно сделать вывод о том, что эти колонки имеют между собой непосредственную зависимость: ежемесячный доход есть у тех клиентов, у которых есть записи об общем трудовом стаже.  

Также можно отметить некоторые особенности данных в следующих полях:

- в поле children есть значением - 1, в поле всего 47 записей с таким значением поля, а также значение 20, в поле 76 записей с таким значением поля, что выглядит как нечто аномальное, нужно проанализировать глубже;

- в поле dob_years есть 101 записись, где возраст клиента составляет 0 лет, что также кажется маловероятным, нужно проанализировать глубже; 

- в поле gender есть 1 запись со значением XNA;

- в поле days_employed, которое содержит информацию об общем трудовом стаже клиента в днях, мы видим:

1. количественное значение в виде дроби, что является не совсем корректным с точки зрения здравого смысла, так как не принято говорить "человек отработал один день и треть второго". Вероятно, будет целесообразно преобразовать данные в тип "int" c окгуглением до целого в меньшую сторону;

2. видим как положительные, так и отрицательные значения. Возможно, понадобится проанализировать значения этого поля глубже, чтобы понять закономерности, обуславливающие отрицательное значение общего трудового стажа;

- в поле education, которое содержит информацию об уровне образования клиента, мы видим семантически идентичные, но синтаксически разные позиции: значения "Среднее", "СРЕДНЕЕ", "среднее" указывают на наличие у клиента среднего образования (что также подтверждается визуально определяемым совпадением с колонкой education_id, где значению 1 соответствует среднее образование, а значению 0 - высшее), однако операции с данными в этом поле покажут три разных уровня образования. Следовательно, необхоодимо будет привести их к одному уровню регистра.

# Выводы по этапу 2.

На данном этапе была проведена предобработка данных, заключающаяся в:

- обработке пропущенных значений;

- обработке аномальных значений;

- замене типов данных;

- обработке дубликатов;

- лемматизации;

- категоризации данных.

Отметим некоторые результаты по каждому из направлений.

### Выводы по обработке пропущенных и аномальных значений.

На этапе 1 удалось идентифицировать следующие пропущенные и аномальные значения в полях DF:

- в полях days_employed и total_income были пропущенные значения, которые не зависели ни от значений в собственных полях, ни от значения в других полях df;
- в поле days_employed находились как положительные, так и отрицательные значения. Положительные значения были характерны для типов занятости "пенсионер" и "безработный", отрицательные - для всех остальных;
- в поле children были аномальные значения "20" и "-1";
- в поле dob_year было аномальное значение "0";
- в поле gender было аномальное значение "XNA".

Для обработки пропущенных и аномальных значений были применены следующие действия:

- все отрицательные значения поля days_employed были преобразованы в положительные путём применения соответствующей функции, пропущенные значения поля days_employed были заменены на медианное значение общего трудового стажа, которое было рассчитано на преобразованных значений поля без учёта пропущенных значений;
- пропущенные значения поля total_income были заменены на медианное значение ежемесячного дохода, рассчитанного без учёта пропущенных значений;
- аномальные значения поля children были преобразованы путём применения соответствующей функции, заменяющей значение "20" на значение "2", а значение "-1" на значение "1";
- аномальное значение поля dob_year было заменено на средний возраст клиентов, рассчитанный без учёта аномальных значений;
- аномальное значение поля gender было удалено из DF в силу незначимости для проекта и незначительного количества аномальных значений в поле.

### Выводы по замене типов данных

С помощью метода .astype() удалось преобразовать значения полей days_employed и income_type из float в int.

С помощью приведения значений поля education удалось сократить количество уникальных значений поля education с 15 до 5.

### Выводы по обработке дубликатов

В DF выявлен 71 дубликат, обусловленный наличием одинаковых значений в полях days_employed и total_income, при этом с учётом анализа связанных полей было установлено, что речь идёт не о статистике платёжеспособности одного и того же клиента.

Дубликаты были выявлены с помощью метода .duplicated().sum(), применённому к DF.

Удаление дубликатов было осуществлено с помощью метода .drop_duplicates(). Вторичная проверка после применения .drop_duplicates() показала, что DF был успешно очищен от дубликатов.

### Выводы по лемматизации

Лемматизация реализована за счёт применения функции purpose_lemma, которая принимает на вход строку с текстом из поля purpose, выделяет в ней леммы и помещает их в виде списка в новое поле lemma.

### Вывод по категоризации данных

Категоризация данных была осуществлена по следующим полям:
- dob_years;
- income_type;
- lemma;
- children;
- total_income.

По возрасту клиенты категоризировались на следующие группы:
- клиенты младше 18 лет попадают в категорию «несовершеннолетний»;
- клиенты от 19 до 64 лет — категория «взрослый»;
- клиенты старше 65 лет принадлежат к категории «пенсионер».

Категоризация по возрасту позволила сделать вывод о том, что основную массу клиентов в статистике платёжеспособности составляют взрослые (95,82%). Несовершеннолетних в статистике нет, что кажется логичным ввиду законодательного ограничения по возрасту, когда кредит может получить лицо, достигшее 18-21 года (зависит от кредитной политики банка и требований регулятора).

По типу занятости клиенты категоризировались на следующие группы:

- типы занятости "пенсионер", "безработный", "в декрете" и "студент" объединяем в категорию "незанятый в экономике";
- прочие типы занятости объединяем в категорию "занятый в экономике".

Категоризация по типу занятости позволила сделать вывод о том, что основную массу клиентов в статистике платёжеспособности составляют занятые в экономике (82,13% от общего количества клиентов).
Незанятые в экономике также присутствуют в статистике платёжеспособности, и этот факт нужно проанализировать глубже, так как незанятые в экономике обычно не имеют стабильного источника дохода, а кредитование отдельных категорий граждан (пенсионеров, безработных, студентов, женщин в декретном отпуске) не предусматривается в кредитной политике некоторых банков. 

По количеству детей клиенты категоризировались на следующие группы:

- если количество детей равно нулю, клиент относится к категории "нет детей";
- если количество детей меньше нуля, клиент относится к категории "аномальное значение данных";
- если количество детей лежит в диапазоне от 1 до 2 (включительно), клиент относится к категории "стандартное количество детей";
- если количество детей больше 2, клиент относится к категории "многодетная семья".

Категоризация по количеству детей позволила сделать вывод о том, что почти 2/3 клиентов в статистике платёжеспособности составляют клиенты без детей (65,68% от общего количества клиентов). 1/3 делят между собой клиенты, имеющие 1-2 детей (32,55% от общего количества клиентов), и многодетные семьи (1,77% от общего количества клиентов).

Категоризация по леммам позволила категоризировать цели кредитования, превратив поле purpose, содержащее строку с несколькими словами, в поле purpose_categ, содержащее категорию цели кредитования, выраженную одним словом.

По леммам целей кредитования клиенты категоризировались на следующие группы:

- недвижимость;
- автомобиль;
- образование;
- жилье;
- свадьба.

По результатам категоризации видно, что наиболее востребованным направлением кредитования является приобретение недвижимости. 

Процентное соотношение направлений распределено следующим образом:

- недвижимость = 32,63%;
- автомобиль = 20,07%;
- образование = 18,71%;
- жилье = 17,76%;
- свадьба = 10,83%.

По уровню ежемесячного дохода клиенты категоризировались на следующие группы:

- клиенты с уровнем ежемесячного дохода до 100 000 включительно относятся к группе "низкий доход";
- клиенты с уровнем ежемесячного дохода выше 100 000, но не превышающим 500 000 включительно, относятся к группе "средний доход";
- клиенты с уровнем ежемесячного дохода выше 500 000 включительно относятся к группе "высокий доход".

Результаты категоризации позволили прийти к выводу о том, что основная масса клиентов, о которых есть записи в статистике платёжеспособности, относятся к группе клиентов со средним доходом, на их долю приходится 78,16% от общего количества клиентов. На долю клиентов с низким уровнем дохода приходится 20,80% клиентов. Доля клиентов с высоким уровнем дохода незначительна и составляет 1,03% от общего числа клиентов.

# Выводы по этапу 3.

На данном этапе были даны отвтеты на главные вопросы проекта.

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Многодетные семьи в меньшей степени склонны к невозврату кредита в срок, чего не скажешь о клиентах, у которых детей нет, так как на эту группу приходится наибольшее количество невозвращённых в срок кредитов.

На втором месте по недобросовестной платёжной дисциплине клиенты, у которых 1 или 2 ребёнка: на просрочку выходят реже бездетных, но всё равно нет-нет да не платят.

Лучшую платёжную дисциплину показывают многодетные семьи, которые на фоне остальных групп почти не выходят на просрочку. Дал Бог зайку, даст и кредит заплатить? Или дело в скрупулёзном планировании бюджета большой и крепкой ячейки общества? Непонятно...

Однако факт есть факт: при проведении кредитных кампаний многодетные семьи - наш кандидат. А если денег останется - можно обычным семьям насыпать. Но осторожно...

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

Ну а тут вообще как в анекдоте: наихудшую платёжную дисциплину демонстрируют клиенты, состоящие в браке. Может, дело в жене, нашедшей заначку супруга, которую тот планировал пустить на утоление банковских аппетитов? Или супруга, увидевшая в салоне новую шубку, решила, что и без хорошей кредитной истории люди на Руси жили и выживали как-то? Ответ - в анналах истории, а не в нашей статистике.

Гражданский брак почти ноздя в ноздрю идёт с клиентами, которые пока не пришли к благам, сулимым узами брака: оба демонстрируют довольно приемлемую платёжную дисциплину. Просрочек относительно немного, но кто из нас не делает ошибки?

Наиболее ответственно подходят к погашению задолженности разведённые и утратившие половинку. Возможно, потеря делает человека более ответственным?

Из сказанного делаем вывод, что если в графе "семейное положение" указано "разведён/разведена" или "вдовец/вдова", кредит, скорее всего, погасят вовремя. А вот у семейной пары лучше требовать поручителя.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Видим, что наиболее ответственно к погашению кредитов относятся люди с высоким уровнем дохода. А почему? Потому что богатые люди знают цену деньгам и предпочтут не платить банку лишние проценты/пени за просрочку. Потому-то и доход высокий.

Клиенты с низким доходом допускают больше просрочек: возможно, низкий уровень дохода не всегда позволяет вовремя заплатить, однако колоссальная разница с количеством просрочек у клиентов со средним уровнем дохода подсказывает, что клиенты с низким уровнем дохода всё же стараются. Мы всё понимаем, клиент с низкими доходами, всё понимаем.

Группа клиентов со средним уровнем дохода - самая большая, поэтому тот факт, что на эту группу приходится и наибольшее количество просрочек, в целом не провоцирует каких-то инсинуаций за пальму первенства по худшей платёжной дисциплине.

В целом, конечно, банкам стоит ориентироваться на высокодоходный сегмент клиентов, так как вероятность непогашения кредита у этой группы минимальна, но это понятно не только Data Scientist, но и ежу, и банки тоже знают, кому продавать.

- Как разные цели кредита влияют на его возврат в срок?

Кредитование недвижимости всегда является рисковым предприятием, так как для этого вида кредита характерны наиболее высокие ежемесячные платежи. Справедливо, что именно для этой категории кредитов наблюдается наибольшее количество просроченных кредитов.

Следом за недвижимостью идут автомобили: если брать дорогой автомобиль в кредит с дополнительным сервисом за деньги банка, эта лошадка может съесть весь доход за счёт текущего обслуживания, не оставив средств на погашение кредитов банка. Заслуженное второе место.

Образование также демонстрирует высокий уровень непогашенных в срок кредитов. Но обучение - дело благое, а то, что кредитополучатель, света белого не видя за уничтожением гранита науки, забыл заплатить - так это бывает. Со стипендии отдаст. А то сейчас даже на еду нет.

Кредиты на свадьбу оказались самыми надёжными. Конечно, зачем брать кредит на свадьбу - большой вопрос, но вне рамок курса. Но уж если взяли - надо отдать. Хорошее совместное испытание для новоиспечённой ячейки общества.

<a href='#title'>К оглавлению.</a> 