## Исследование надёжности заёмщиков

Задача: предварительный анализ данных о клиентах банка для настройки программы кредитного скоринга.

## Содержание

- [Шаг 1. Открою файл с данными и изучу общую информацию](#step1)
    - [Дополнительные проверки данных](#step1.1)
    - [Числовые данные](#step1.2)
    - [Вывод](#step1.3)
- [Шаг 2. Предобработка данных](#step2)
    - [Поиск и удаление артефактов](#step2.1)
    - [Числовые столбцы](#step2.2)
    - [Замена типа данных](#step2.3)
    - [Обработка дубликатов](#step2.4)
    - [Обработка пропусков](#step2.5)
    - [Лемматизация](#step2.6)
    - [Категоризация данных](#step2.7)
    - [Вывод](#step2.8)
- [Шаг 3. Ответы на вопросы](#step3)
    - [Зависимость между наличием детей и возвратом кредита в срок](#step3.1)
    - [Зависимость между семейным положением и возвратом кредита в срок](#step3.2)
    - [Зависимость между уровнем дохода и возвратом кредита в срок](#step3.3)
    - [Как разные цели влияют на возврат кредита в срок?](#step3.4)
- [Шаг 4. Общий вывод](#step4)

### <a id='step1'></a>Шаг 1. Открою файл с данными и изучу общую информацию

In [1]:
import pandas as pd

data_credit = pd.read_csv('/datasets/data.csv')

In [2]:
data_credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
data_credit.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


**Первоначальные выводы**: Таблица содержит 12 столбцов, и более 20 тыс. строк, достаточное количество для получения довольно достоверных статистических выводов.

2 столбца (*отработанные дни и суммарный доход*) - имеют более 2 тыс. null элементов.

Видны проблемы (усложняющие анализ) со столбцами отработанных дней, уровня образования, суммарного дохода и цели кредита.

###### Дополнительные проверки данных:<a id='step1.1'></a>

In [4]:
# количество детей
data_credit['children'].value_counts().sort_index()
# сортировка по индексу позволяет легче выделить некорректные значения

-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: children, dtype: int64

Имеются некорректные данные в столбце - "-1" и "20".

In [5]:
# числовые данные, но более информативным будет подсчет значений и сортировка по возрасту
data_credit['dob_years'].value_counts().sort_index()

0     101
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

Некорректные данные - 101 человек с нулевым возрастом.

In [6]:
# образование
data_credit['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64

Дубли категорий из-за различий в регистре букв. 5 категорий.

In [7]:
# идентификатор для уровня образования
data_credit['education_id'].value_counts().sort_index()
#сортировка по индексу позволяет легче выделить некорректные значения

0     5260
1    15233
2      744
3      282
4        6
Name: education_id, dtype: int64

Идентификаторы последовательные от 0 до 4, соответствуют количеству категорий в предыдущем столбце, ок.

In [8]:
# семейный статус
data_credit['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

Семейные статусы - ок. Для решения задачи определения зависимости возврата кредита в срок от наличия семьи потребуется дополнительная группировка в 2 категории:
- есть семья
- нет семьи

In [9]:
# идентификатор семейного статуса
data_credit['family_status_id'].value_counts().sort_index()
# сортировка по индексу позволяет легче выделить некорректные значения

0    12380
1     4177
2      960
3     1195
4     2813
Name: family_status_id, dtype: int64

От 0 до 4, соответствует количеству статусов, описанных словами, в предыдущем столбце.

In [10]:
# пол
data_credit['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

1 некорректное значение

In [11]:
# тип занятости просителя
data_credit['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

Ок, но потребуется дополнительная группировка.

In [12]:
# имеются ли задолженности
data_credit['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

Ок, по этому столбцу будем собирать всю статистику.

In [13]:
# цель получения кредита
data_credit['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

Избыточные данные не позволяют сгруппировать данные по различным категориям, потребуется лемматизация.

##### Числовые данные:<a id='step1.2'></a>
Проверю максимальные и минимальные данные. Кроме того, как раз в этих столбцах содержатся данные типа Null.

Отработанные дни:

In [14]:
print(data_credit['days_employed'].min())
print(data_credit['days_employed'].max())

-18388.949900568383
401755.40047533


Проблема - отрицательные данные.

Дополнительная проверка на поиск закономерностей. Наиболее логично проверить связь с типом занятости работника:

In [15]:
# проверка связи для значений типа Null
data_credit[data_credit['days_employed'].isnull()]['income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

Факт - в столбце отработанных дней данные типа Null для явно работающих категорий, где по логике они должны быть положительным числом.

In [16]:
# группировка значений для отрицательных дней отработки
data_credit[data_credit['days_employed'] < 0]['income_type'].value_counts()

сотрудник          10014
компаньон           4577
госслужащий         1312
в декрете              1
студент                1
предприниматель        1
Name: income_type, dtype: int64

Отрицательное количество отработанных дней - аналогично.

In [17]:
# нулевое количество отработанных дней
data_credit[data_credit['days_employed'] == 0]['income_type'].value_counts()

Series([], Name: income_type, dtype: int64)

Нет людей без стажа.

In [18]:
# группировка значений для положительных дней отработки
data_credit[data_credit['days_employed'] >= 0]['income_type'].value_counts()

пенсионер      3443
безработный       2
Name: income_type, dtype: int64

Положительные значения только у 2 категорий: пенсионер и безработный. Очевидно, произошла ошибка при загрузке других категорий. Ошибка в знаке или другая. Но нам эти данные для текущих задач не нужны.

Уровень дохода:

In [19]:
print(data_credit['total_income'].min())
print(data_credit['total_income'].max())

20667.26379327158
2265604.028722744


Масштаб данных выглядит достоверным, но происхождение дробной части непонятно. Возможно, дробная часть появилась при пересчёте валют по курсу или при вычете процента налогов.

Преподаватель по проектам сказал, что данные в целом верны. Решено произвести преобразование к типу int, т.к. знаки после запятой нам не нужны.

### Вывод<a id='step1.3'></a>

Данные, предоставленные для анализа платежеспособности клиентов, соответствуют решаемым вопросам, однако требуют предобработки.

Есть избыточный для решения поставленной задачи столбец с некорректными данными:
- *отработанные дни*

Остальные столбцы для составления необходимых выводов требуют таких видов обработки, как:
- удаление артефактов
- удаление дубликатов
- замена значений типа *Null*
- замена вещественного типа данных на целочисленный (*суммарный доход*)
- Категоризация:
    - *число детей*
    - *семейный статус*
    - *уровень дохода*
    - *цель кредита*
- Лемматизация - *цель кредита*

### <a id='step2'></a>Шаг 2. Предобработка данных

Общий порядок действий:
- найдём артефакты в данных
- удалим дубликаты
- заполним пропуски

Это позволит минимизировать объем работы при заполнении пропусков.

### Поиск и удаление артефактов<a id='step2.1'></a>

In [20]:
data_credit.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


При просмотре первых строк таблицы видны артефакты в столбцах:
- *отработанных дней*, *итоговый доход* - отрицательные значения
- *образование* - различный регистр

Для начала я исправлю регистр во всех строковых столбцах на нижний, это позволит сэкономить время на проведении проверок.
После этого проведу проверку всех столбцов на встречающиеся значения. В зависимости от количества артефактов приму решение о дальнейшем порядке действий.

##### Исправление регистра

In [21]:
# выберу столбцы строкового типа
for column in data_credit.select_dtypes(include='object'):
    # по очереди преобразую к нижнему регистру
    data_credit[column] = data_credit[column].str.lower()

In [22]:
data_credit.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616.07787,сыграть свадьбу


Как видно по первым строкам, замена сработала, дополнительно проконтролирую замену остальных строк при проверке значений по столбцам методом *value_counts()*.

Проверим столбцы последовательно, для каждой строки суммируя количество столбцов с неверными данными. Добавлю пометку для неверных данных, которые я не буду удалять.

In [23]:
# инициирую счетчик неверных данных в столбцах
data_credit['wrong_values'] = 0

#### Строковые столбцы

##### Количество детей

Выведем различные значения столбца, сгруппированные по количеству детей для удобства.

In [24]:
data_credit['children'].value_counts().sort_index()

-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: children, dtype: int64

Выявлено 2 некорректных значения: *-1* и *20*. *-1* - понятно, а *20* некорректно, т.к. не укладывается в общую закономерность уменьшения количества заёмщиков с большим числом детей, и имеется разрыв с 6 до 19 детей, где заёмщики отсутствуют.

In [25]:
# заменим все некорректные значения на -1
data_credit['children'] = data_credit['children'].replace(20, -1)

In [26]:
# проверка
data_credit['children'].value_counts().sort_index()

-1      123
 0    14149
 1     4818
 2     2055
 3      330
 4       41
 5        9
Name: children, dtype: int64

In [27]:
data_credit.loc[data_credit['children'] == -1, 'wrong_values'] = data_credit['wrong_values'] + 1

In [28]:
# проверка
data_credit['wrong_values'].value_counts()

0    21402
1      123
Name: wrong_values, dtype: int64

##### Возраст

In [29]:
data_credit['dob_years'].value_counts().sort_index()

0     101
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

*0* - неверное значение. Делаем отметку в столбце *wrong_values*

In [30]:
data_credit.loc[data_credit['dob_years'] == 0, 'wrong_values'] = data_credit['wrong_values'] + 1

In [31]:
# Проверка
data_credit['wrong_values'].value_counts()

0    21302
1      222
2        1
Name: wrong_values, dtype: int64

Всё верно, и есть 1 совпадение, т.е. строка с 2 неверными значениями.

##### Образование

In [32]:
data_credit['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Всё ок.

Столбец с id образования:

In [33]:
data_credit['education_id'].value_counts().sort_index()

0     5260
1    15233
2      744
3      282
4        6
Name: education_id, dtype: int64

Проверка на соответствие значений в 2-х столбцах с образованием методом группировки. Если в какой-либо группе будет больше, чем 1 категория уровня образования, значит, есть несоответствие.

In [34]:
data_credit.groupby(['education_id', 'education'])['education'].count()

education_id  education          
0             высшее                  5260
1             среднее                15233
2             неоконченное высшее      744
3             начальное                282
4             ученая степень             6
Name: education, dtype: int64

Ок, полное соответствие между словесным описанием уровня образования и его id.

Со столбцами об образовании ок.

##### Семья (2 столбца)

In [35]:
data_credit['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [36]:
data_credit['family_status_id'].value_counts().sort_index()

0    12380
1     4177
2      960
3     1195
4     2813
Name: family_status_id, dtype: int64

Вывод: артефактов нет.

Проверка соответствия индексов через группировку по аналогии с уровнем образования:

In [37]:
data_credit.groupby(['family_status_id', 'family_status'])['family_status'].count()

family_status_id  family_status        
0                 женат / замужем          12380
1                 гражданский брак          4177
2                 вдовец / вдова             960
3                 в разводе                 1195
4                 не женат / не замужем     2813
Name: family_status, dtype: int64

Соответствие ок, проверка на артефакты столбцов *family_status, family_status_id* - ок

##### Пол

In [38]:
data_credit['gender'].value_counts()

f      14236
m       7288
xna        1
Name: gender, dtype: int64

xna - неверное значение. Отметим его.

In [39]:
data_credit.loc[data_credit['gender'] == 'xna', 'wrong_values']  = data_credit['wrong_values'] + 1

In [40]:
# проверка
data_credit['wrong_values'].value_counts()

0    21301
1      223
2        1
Name: wrong_values, dtype: int64

222 возросло до 223. Всё верно!

##### Тип занятости

In [41]:
data_credit['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

Всё ок, неверных значений нет.

##### Факт задолженности

In [42]:
data_credit['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

Артефактов нет.

##### Цель получения кредита

In [43]:
data_credit['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

Есть задача по выделению категорий, но артефактов, что интересует на этом этапе, нет.

#### Числовые столбцы <a id='step2.2'></a>
Получим основную статистику:
- минимальное значение
- медиана
- среднее
- максимальное

##### Отработанные дни

In [44]:
print('Минимальное значение отработанных дней:', data_credit['days_employed'].min())
print('Медиана для отработанных дней', data_credit['days_employed'].median())
print('Среднее значение для отработанных дней', data_credit['days_employed'].mean())
print('Максимальное значение отработанных дней', data_credit['days_employed'].max())

Минимальное значение отработанных дней: -18388.949900568383
Медиана для отработанных дней -1203.369528770489
Среднее значение для отработанных дней 63046.49766147338
Максимальное значение отработанных дней 401755.40047533


Артефакты:
- отрицательные значения
- дробные части чисел

In [45]:
# Обнаружились артефакты в виде отрицательных значений. Проверим, сколько их.
days_negative_total = data_credit[data_credit['days_employed'] < 0]['days_employed'].count()
print('Количество отрицательных значений:', days_negative_total)
print('Процент отрицательных значений: {:.2%}'.format(days_negative_total / data_credit.shape[0]))

Количество отрицательных значений: 15906
Процент отрицательных значений: 73.90%


Соберём доп. статистику. Наиболее логичным представляется определить, как количество рабочих дней связано с типом занятости работника. Может отрицательное количество только у безработных? Или у определённой категории?

In [46]:
# получим разбиение по категориям для отрицательного количества дней стажа.
data_credit[data_credit['days_employed'] < 0]['income_type'].value_counts()

сотрудник          10014
компаньон           4577
госслужащий         1312
в декрете              1
студент                1
предприниматель        1
Name: income_type, dtype: int64

In [47]:
# для сравнения получим такое же разбиение для корректных значений стажа:
data_credit[data_credit['days_employed'] >= 0]['income_type'].value_counts()

пенсионер      3443
безработный       2
Name: income_type, dtype: int64

In [48]:
# просмотрим случайную выборку
data_credit[data_credit['days_employed'] >= 0].sample(n=5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,wrong_values
11814,0,339624.249848,57,высшее,0,женат / замужем,0,f,пенсионер,0,217064.784031,операции с недвижимостью,0
1482,1,388210.396303,52,среднее,1,женат / замужем,0,f,пенсионер,0,52944.363287,на покупку автомобиля,0
3213,0,390946.55777,57,среднее,1,женат / замужем,0,f,пенсионер,0,64014.701476,покупка коммерческой недвижимости,0
5726,0,392386.815564,57,среднее,1,гражданский брак,1,f,пенсионер,0,154682.053079,сыграть свадьбу,0
10662,1,378120.240753,55,среднее,1,женат / замужем,0,f,пенсионер,0,135989.325303,сделка с подержанным автомобилем,0


Даже у положительного числа отработанных дней есть дробная часть.

Создам сводную таблицу для наглядности:

In [49]:
def days_employed_split(num_days):
    num_days = int(num_days)
    if num_days > 0:
        return 'больше 0'
    elif num_days == 0:
        return 'равно 0'
    return 'меньше 0'

In [50]:
# добавление нового столбца для группировки, исключая значения Null
data_credit['days_category'] = data_credit[data_credit['days_employed'].notna()].apply(lambda x: days_employed_split(x['days_employed']), axis=1)

In [51]:
# суммируем данные в столбцах по числу наблюдений
pivot_table = data_credit.pivot_table(index='income_type', columns='days_category',
                                      values='debt', aggfunc='count', fill_value='-', margins=True, margins_name='Всего:')

In [52]:
pivot_table

days_category,больше 0,меньше 0,Всего:
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
безработный,2,-,2
в декрете,-,1,1
госслужащий,-,1312,1312
компаньон,-,4577,4577
пенсионер,3443,-,3443
предприниматель,-,1,1
сотрудник,-,10014,10014
студент,-,1,1
Всего:,3445,15906,19351


По сводной таблице видно, что нулевых значений отработанных дней в таблице нет, а внутри каждой категории по типу занятости отработанных дней *либо* больше, *либо* меньше, для каждой категории однозначно. Очевидно, произошла ошибка либо при записи данных, либо при последующей их выгрузке. Как неверные значения в столбце *total_income* отрицательные значения по дням не учитываю. Для ответов на поставленные вопросы столбец не нужен, оставляю как есть, т.к. данные могут быть записаны в каком-то нестандартном формате и при необходимости восстановимы. 

##### Общий доход
Получим основную статистику:

In [53]:
print('Минимальный доход:', data_credit['total_income'].min())
print('Медиана для дохода', data_credit['total_income'].median())
print('Среднее значение для дохода', data_credit['total_income'].mean())
print('Максимальное значение дохода', data_credit['total_income'].max())

Минимальный доход: 20667.26379327158
Медиана для дохода 145017.93753253992
Среднее значение для дохода 167422.30220817294
Максимальное значение дохода 2265604.028722744


Проблема только с дробной частью. Отрицательных значений не обнаружено. Во *wrong_values* ничего не записываю.

#### Общая обработка артефактов
Т.к. артефакты в данных выявлены в нескольких столбцах, посчитаем их общее количество и процент в общем наборе данных:

In [54]:
wrong_values_total = data_credit[data_credit['wrong_values'] > 0]['wrong_values'].count()
print('Количество артефактов в целом:',wrong_values_total)
print('Процент: {:.2%}'.format(wrong_values_total / data_credit.shape[0]))

Количество артефактов в целом: 224
Процент: 1.04%


Благодаря тому, что использовался счётчик, а не удалялись артефакты для каждого столбца по отдельности, это позволило определить общее количество артефактов и их общий процент. Если бы по каждой отдельной категории количество артефактов было незначительно, но в целом уже ощутимо, я бы использовал метод замены на среднее значение. Но общее количество артефактов незначительно, удаляем.

In [55]:
# проверка: количество строк до удаления артефактов
data_credit.shape[0]

21525

In [56]:
# оставляем только строки без артефактов
data_credit = data_credit[data_credit['wrong_values'] == 0]

In [57]:
# проверка
print('Удалены только данные с артефактами' if (data_credit.shape[0] + wrong_values_total == 21525) else 'Ошибка при удалении артефактов')
print('Новое количество записей:', data_credit.shape[0])

Удалены только данные с артефактами
Новое количество записей: 21301


Всё верно, удалены только артефакты.

### Замена типа данных<a id='step2.3'></a>

Избавимся от незначащей информации в столбце с общим уровнем дохода - знаками после запятой. Для этого заменим тип данных у столбца на *int*.

In [58]:
data_credit.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,wrong_values,days_category
0,1,-8437.673028,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875.639453,покупка жилья,0,меньше 0
1,1,-4024.803754,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080.014102,приобретение автомобиля,0,меньше 0
2,0,-5623.42261,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885.952297,покупка жилья,0,меньше 0
3,3,-4124.747207,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628.550329,дополнительное образование,0,меньше 0
4,0,340266.072047,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616.07787,сыграть свадьбу,0,больше 0


Применим проверку на ошибки, т.к. не все данные могут быть преобразованы к числовому типу без ошибок:

In [59]:
try:
    data_credit['total_income'] = data_credit['total_income'].astype('int')
except:
    print('Ошибка при приобразовании типа данных в столбце. Столбец \'total_income\' содержит данные, которые не могут быть преобразованы в число.')

Ошибка при приобразовании типа данных в столбце. Столбец 'total_income' содержит данные, которые не могут быть преобразованы в число.


In [60]:
data_credit.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,wrong_values,days_category
0,1,-8437.673028,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875.639453,покупка жилья,0,меньше 0
1,1,-4024.803754,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080.014102,приобретение автомобиля,0,меньше 0
2,0,-5623.42261,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885.952297,покупка жилья,0,меньше 0
3,3,-4124.747207,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628.550329,дополнительное образование,0,меньше 0
4,0,340266.072047,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616.07787,сыграть свадьбу,0,больше 0


Ошибок нет, всё удачно.

### Вывод

Была выполнена работа по преобразованию типов.

Единственное преобразование, которое можно было провести, преобразование столбца *total_income* с общим уровнем дохода. В результате отсекли дробную часть чисел, абсолютно ненужную для принятия решений. Преобразование прошло без ошибок.

### Обработка дубликатов<a id='step2.4'></a>

Т.к. в таблице нет данных, которые однозначно характеризуют личность человека (*паспортные, адрес проживания* и т.п. или *id*), любые дубликаты могут быть случайным совпадением. Особенно для строк с пропущенными данными об уровне дохода и количестве отработанных дней.

#### Автоматический поиск дубликатов

Определим процент полных совпадений в данных, для этого разделим их количество на общее количество строк в таблице:

In [61]:
data_dup_total = data_credit.duplicated().sum()
print('Количество дубликатов в таблице:', data_dup_total)
print('Процент дубликатов в таблице: {:.2%}'.format(data_dup_total / data_credit.shape[0]))

Количество дубликатов в таблице: 71
Процент дубликатов в таблице: 0.33%


Вывод: в таблице есть полные дубликаты. Количество позволяет от них избавиться без вреда для исследования. Удалим их.

In [62]:
data_count_before_deleting = data_credit.shape[0]
data_credit = data_credit.drop_duplicates()

In [63]:
# проверка
print('Дубликаты успешно удалены' if data_credit.shape[0] + data_dup_total == data_count_before_deleting else 'Ошибка при удалении дубликатов')
print('Общее количество элементов данных:', data_credit.shape[0])

Дубликаты успешно удалены
Общее количество элементов данных: 21230


#### Ручной поиск дубликатов

Поиск дубликатов в столбцах
- children
- days_employed
- dob_years
- education_id
- family_status_id
- gender
- debt
- total_income

  не имеет практического смысла, т.к. это либо данные в виде категорий, либо числовые данные из ограниченного набора целых значений и т.п., и допускают возможность существования повторных значений.

Текстовые столбцы
- education
- family_status
- income_type
- purpose

могли бы иметь дубликаты из-за различия в регистре, но их я привёл к однообразному виду на этапе поиска и устранения артефактов. Следовательно, ручной поиск дубликатов не нужен.

### Вывод

Полных дубликатов в автоматическом режиме было выявлено 71. Это число незначительно для данной выборки, поэтому они были удалены.

Поиск дубликатов в ручном режиме с раздельным анализом по столбцам нецелесообразен: в категориальных данных они есть по определению, в числовых могут быть совпадениями, а не дубликатами, а данных о заёмщиках, которые могли бы однозначно выявить дубликаты - *паспортные, адрес проживания, телефон, id* - не указано.

### Обработка пропусков<a id='step2.5'></a>

Просмотр общей информации

In [64]:
print(data_credit.shape)

(21230, 14)


Проверка наличия пропусков по столбцам (на равенство *Null*).

In [65]:
data_credit.isnull().sum()

children               0
days_employed       2081
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2081
purpose                0
wrong_values           0
days_category       2081
dtype: int64

Очевидно, в 2 столбцах имеются пропуски. Количество совпадает, совпадают ли строки?

In [66]:
# создание таблицы по условию "Количество отработанных дней" = Null
data_skipped = data_credit[data_credit['days_employed'].isnull()]

In [67]:
data_skipped.shape

(2081, 14)

In [68]:
# проверка количества Null в столбце "суммарный доход" отфильтрованной таблицы.
# если значение равно значению в исходной таблице, совпадение полное
# использую count() для подсчета числа таких значений.
data_skipped['total_income'].isnull().count()

2081

Полное совпадение!

In [69]:
print('Пропущенные данные находятся в столбцах \'days_employed\' и \'total_income\' и присутствуют у {:.0%} человек в выборке'.format(data_skipped.shape[0] / data_credit.shape[0]))

Пропущенные данные находятся в столбцах 'days_employed' и 'total_income' и присутствуют у 10% человек в выборке


Проверим, можно ли заменить эти данные на *0*, для этого посмотрим, какие должности занимают эти люди.

In [70]:
data_skipped['income_type'].value_counts()

сотрудник          1061
компаньон           495
пенсионер           380
госслужащий         144
предприниматель       1
Name: income_type, dtype: int64

После последовательного применения фильтрации по *null* для разных столбцов размер итоговой таблицы не уменьшился, значит, равенство на количество значений Null в этих столбцах - не совпадение, а это одни и те же строки. 10% таких строк - значительное число. Однако при проверке столбцов было выявлено, что эти люди имеют работу, о чём говорит *тип должности*:
- сотрудник
- компаньон
- пенсионер
- госсулужащий
- предприниматель

Следовательно, там были ненулевые данные, и они утеряны. Данные, скорее всего, потерялись на этапе загрузки (несоответствие типов столбцов и т.п.).

Мы не можем просто заменить эти данные на *0*, и заменить на некоторое среднее значение, общее для всей выборки. Большую точность позволит сохранить замена на медианное значение для каждой категории. Замена некорректных значений, а не удаление строк позволит сохранить статистику по остальным корректным столбцам.

### Вывод

Все нестантартные и странные пропуски и артефакты были выявлены на предыдущих этапах. Здесь я произвел поиск значений Null типа по столбцам. По дополнительным проверкам определено, что значения утеряны. Однако строки с пропусками я не удалил и не стал *сейчас* заменять на общее среднее, чтобы посчитать более информативное среднее в зависимости от возрастной группы, типа занятости и уровня образования, что будет возможно в дальнейшем после категоризации.

### Лемматизация<a id='step2.6'></a>

Лемматизация применяется к словам естественного языка. Ранее я определил, что в лемматизации нуждается только столбец с целью получения кредита.

Цель получения кредита:

In [71]:
data_credit['purpose'].value_counts()

свадьба                                   785
на проведение свадьбы                     759
сыграть свадьбу                           755
операции с недвижимостью                  669
покупка коммерческой недвижимости         655
покупка жилья для сдачи                   647
операции с коммерческой недвижимостью     643
операции с жильем                         641
покупка жилья для семьи                   636
жилье                                     635
покупка жилья                             634
недвижимость                              627
строительство собственной недвижимости    626
операции со своей недвижимостью           623
строительство недвижимости                619
покупка своего жилья                      618
строительство жилой недвижимости          617
покупка недвижимости                      612
ремонт жилью                              602
покупка жилой недвижимости                599
на покупку своего автомобиля              501
заняться высшим образованием      

Избыточная информация мешает нам провести группировку данных по категориям.

Варианты целей (в исходной словарной форме записи):
- свадьба
- (недвижимость, жилье) - объединяю в "недвижимость", т.к. жилье - частный случай, подкатегория, относящаяся к недвижимости
- автомобиль
- образование

In [72]:
# импортируем библиотеку Яндекса для проведения лемматизации слов русского языка
from pymystem3 import Mystem
m = Mystem()

# функция для автоматического создания нового столбца категорией цели
def purpose_category(purpose):
    # превращение исходной строки в лист со словами в исходной словарной форме
    lemmas = m.lemmatize(purpose)
    # проверяем на выделенные категории и возаращаем значение категории по найденным словам
    if 'свадьба' in lemmas:
        return 'свадьба'
    # объединяем, т.к. жилье это частный случай недвижимости, но многоуровневая структура нам здесь не нужна
    elif 'недвижимость' in lemmas or 'жилье' in lemmas: 
        return 'недвижимость'
    elif 'автомобиль' in lemmas:
        return 'автомобиль'
    elif 'образование' in lemmas:
        return 'образование'
    else:
        return 'другое' # проверка на ошибки в написании и другие категории

In [73]:
# добавление нового столбца в соответствии с функцией
data_credit['purpose_category'] = data_credit['purpose'].apply(purpose_category)

In [74]:
print(data_credit['purpose_category'].value_counts())
# дополнительная проверка на условие, что сумма заявок по всем категориям равна общему числу заявок
print(data_credit['purpose_category'].value_counts().sum() == data_credit.shape[0])

недвижимость    10703
автомобиль       4258
образование      3970
свадьба          2299
Name: purpose_category, dtype: int64
True


Всем строкам были присвоены определённые ключевые категории, ошибок нет.

### Вывод

Лемматизация позволила выделить 4 различных категории заявок на цель кредита. Теперь убрана ненужная детализация, мешающая выявить закономерности и возможно произвести информативную группировку по целям получения кредита.

### Категоризация данных<a id='step2.7'></a>

Имеющиеся типы данных в столбцах
- количества детей
- возраста
- типа занятости
- семейного положения
- уровня дохода

позволяют выявить общие или схожие черты (*тип занятости*, *возраст*, *семейное положение*) или объединить меньшие группы (*количества детей, уровня дохода*) в группы для получения сопоставимых по количеству групп. От меньших групп нужно избавляться и потому, что вероятность того, что полученное среднее число будет статистически недостоверным (доверность растет с ростом числа объектов исследования).

По возможности, категорий должно быть более 2-х, чтобы проследить закономерность более достоверно. Например, если определено, что с ростом уровня дохода процент возврата по кредиту увеличивается как от *низкого* к *среднему*, так и от *среднего* к *высокому* (3 категории) - более достоверно, нежели просто рост от *низкого* к *высокому* в случае лишь 2-х категорий.

Запись новых категорий будем производить в новые столбцы таблицы.

##### Категоризация по количеству детей.

Для начала определим распределение количества детей у людей из выборки:

In [75]:
data_credit['children'].value_counts()

0    14021
1     4792
2     2039
3      328
4       41
5        9
Name: children, dtype: int64

Как видим, есть тенденция к тому, что большее количество детей встречается всё меньше и меньше. Отсюда есть смысл объединять меньшие категории - т.е. с бОльшим количеством детей. Оптимально: "нет детей", "1", "2 и более".

In [76]:
def children_category(children):
    if children == 0:
        return 'нет детей'
    elif children == 1:
        return 'один ребёнок'
    elif children > 1:
        return 'два и более детей'
    return 'некорректное число'

In [77]:
data_credit['children_category'] = data_credit['children'].apply(children_category)

Проверим верность категоризации многоуровневой группировкой по аналогии с уровнем образования:

In [78]:
data_credit.groupby(['children_category', 'children'])['children'].count()

children_category  children
два и более детей  2            2039
                   3             328
                   4              41
                   5               9
нет детей          0           14021
один ребёнок       1            4792
Name: children, dtype: int64

В категории "два и более детей" содержатся данные о *2, 3, 4, 5* детей, *нет детей* - *0*, *один ребёнок* - *1*. Проверка пройдена успешно.

##### Категоризация по роду деятельности.

In [79]:
data_credit['income_type'].value_counts()

сотрудник          10961
компаньон           5026
пенсионер           3792
госслужащий         1445
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

Объединим малочисленные категории с более многочисленными. Общее в исходных категориях - наличие и тип работы.

Выделим категории:
- свой бизнес (*компаньон, предприниматель*)
- подчиненные в бизнесе (*сотрудник*)
- государственная служба (*госслужащий*)
- безработные (*пенсионер, студент, в декрете*)

In [80]:
def work_category(income_type):
    if income_type == 'компаньон' or income_type == 'предприниматель':
        return 'свой бизнес'
    if income_type == 'сотрудник':
        return 'подчиненные (бизнес)'
    if income_type == 'госслужащий':
        return 'государственная служба'
    if income_type == 'пенсионер' or income_type == 'студент' or income_type == 'в декрете' or income_type == 'безработный':
        return 'безработные'
    # обработка ошибок (если где-то опечатался)
    return 'другой тип'    

In [81]:
# создание нового столбца для категорий
data_credit['work_category'] = data_credit['income_type'].apply(work_category)

Проверка:

In [82]:
data_credit['work_category'].value_counts()

подчиненные (бизнес)      10961
свой бизнес                5028
безработные                3796
государственная служба     1445
Name: work_category, dtype: int64

Малочисленные категории объединены с главными.

##### Категоризация по возрасту
Другой способ разделения - по возрасту. Пенсионеры отдельно независимо от возраста, т.к. при объединении уровень дохода в группе будет слишком различен. Т.к. в условии не указано, каким образом делить на категории по возрасту, логичным выглядит вариант делить по медианному (на приблизительно равные группы).

Найдём медианный возраст для *не_пенсионеров*:

In [83]:
data_credit[data_credit['income_type'] != 'пенсионеры']['dob_years'].median()

43.0

По возрасту разобъём выборку до 45 лет (округлим) и после.

In [84]:
# функция для строки для выделения категорий по возрасту
# передаём всю строку таблицы, т.к. работаем с несколькими столбцами

def age_category(data):
    # на первом месте, т.к. нужно отсортировать income_type 'пенсионер'
    if data['income_type'] == 'пенсионер':
        return 'пенсионеры'
    elif data['dob_years'] < 45:
        return 'до 45 лет'
    else:
        return 'после 45 лет'

In [85]:
# создание столбца с категорией по возрасту, метод apply применяется ко всей строке таблицы, т.к. используются данные нескольких столбцов
data_credit['age_category'] = data_credit.apply(age_category, axis=1)

In [86]:
# проверка
data_credit['age_category'].value_counts()

до 45 лет       11545
после 45 лет     5893
пенсионеры       3792
Name: age_category, dtype: int64

In [87]:
data_credit.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,wrong_values,days_category,purpose_category,children_category,work_category,age_category
0,1,-8437.673028,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875.639453,покупка жилья,0,меньше 0,недвижимость,один ребёнок,подчиненные (бизнес),до 45 лет
1,1,-4024.803754,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080.014102,приобретение автомобиля,0,меньше 0,автомобиль,один ребёнок,подчиненные (бизнес),до 45 лет
2,0,-5623.42261,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885.952297,покупка жилья,0,меньше 0,недвижимость,нет детей,подчиненные (бизнес),до 45 лет
3,3,-4124.747207,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628.550329,дополнительное образование,0,меньше 0,образование,два и более детей,подчиненные (бизнес),до 45 лет
4,0,340266.072047,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616.07787,сыграть свадьбу,0,больше 0,свадьба,нет детей,безработные,пенсионеры


##### Категоризация по уровню дохода
Разобъем выборку по уровню дохода:
найдём медианный доход для данных в целом и для каждой из подгрупп (исключив безработных):

In [88]:
# временная таблица без учета безработных
working = data_credit[data_credit['work_category'] != 'безработные']

In [89]:
working['total_income'].median()

151156.76689204384

Округлим до 150 000

In [90]:
working[working['total_income'] < 150000]['total_income'].median()

107803.73503108133

Меньшая медиана 100 000

In [91]:
working[working['total_income'] >= 150000]['total_income'].median()

210224.05019022076

Верхнюю медиану округлим до 200 000.

Напишем функцию для одной строки.

In [92]:
def income_level(total_income):
    if pd.isna(total_income):
        return None
    if total_income == 0:
        return 'нет дохода'
    elif total_income < 100000:
        return 'низкий'
    elif total_income < 150000:
        return 'средний'
    elif total_income < 200000:
        return 'выше среднего'
    elif total_income >= 200000:
        return 'высокий'
    else:
        # если указано отрицательное число
        return 'неверные данные'

In [93]:
# не учитываем неверные значения (столбец wrong_values)
data_credit['income_level'] = data_credit[data_credit['wrong_values'] == 0]['total_income'].apply(income_level)

Проверка:

In [94]:
data_credit[data_credit['wrong_values'] == 0]['income_level'].value_counts()

средний          5639
высокий          5011
низкий           4421
выше среднего    4078
Name: income_level, dtype: int64

Как видно, удалось разделить выборку на сопоставимые по количеству категории.

Определим медиану для каждой из отдельных категорий для замены ей значений *Null*.

Для начала определим, по каким категориям будем делить выборку для вычисления медианы. Исходим из наиболее логичного предположения, что на уровень дохода влияют:
- *возрастная категория* (чем больше возраст, тем больше доход)
- *тип занятости* (руководящие должности - больше доход)
- *уровень образования* (высшее - больше доход)

In [95]:
medians_income = data_credit[data_credit['total_income'].notnull()]. \
groupby(['age_category','income_type', 'education'])['total_income'].median()

In [96]:
# полученная таблица
medians_income

age_category  income_type      education          
до 45 лет     безработный      среднее                 59956.991984
              в декрете        среднее                 53829.130729
              госслужащий      высшее                 165255.959954
                               начальное              190912.178349
                               неоконченное высшее    159647.976722
                               среднее                137233.489806
                               ученая степень         111392.231107
              компаньон        высшее                 197124.337504
                               начальное              134012.003567
                               неоконченное высшее    175222.119061
                               среднее                158050.756434
              предприниматель  высшее                 499163.144947
              сотрудник        высшее                 164061.115891
                               начальное              124298.7594

Как видно, не все сочетания категорий входят в эту таблицу, значения высчитаны только для комбинаций, присутствующих в выборке. Поэтому могут быть заменены не все значения *Null*, если некая комбинация категорий есть в строках с *Null* вместо дохода.

Напишем функцию для замены пропущенных значений:

In [97]:
def income_median(row):
    if pd.isna(row['total_income']):
        # попытка вычислить значение для нужной комбинации категорий
        try:
            value = medians_income[(row['age_category'], row['income_type'], row['education'])]
            row['total_income'] = value
        except:
            row['total_income'] = None
        row['income_level'] = income_level(row['total_income'])
    return row # для числовых значений столбца возвращаем их прежние значения

In [98]:
# заполнение значений столбца
data_credit = data_credit.apply(income_median, axis=1)

Проверка:
- повторяющимися значениями заполнена не вся исходная таблица
- средние значения по категориям не изменились

In [99]:
# количество значений, если повторяющихся будет больше - непорядок
medians_income.shape

(37,)

In [100]:
data_credit['total_income'].value_counts().head(38)

136585.186586    507
114825.442148    316
136439.063467    277
158050.756434    178
164061.115891    155
197124.337504    135
161487.389658    113
171699.598561     76
143939.043160     54
216782.291829     51
165255.959954     41
137233.489806     40
135551.372293     37
149551.191876     31
181417.537652     20
175222.119061     14
132596.621346      8
159647.976722      7
120136.896353      7
102598.653164      7
169646.655030      7
207517.573224      7
124298.759469      5
134012.003567      2
190912.178349      2
105766.403301      2
133912.272223      1
282236.793224      1
196416.335041      1
89922.645314       1
126700.721974      1
93569.551205       1
182036.676828      1
173720.059245      1
198271.837248      1
109113.601678      1
164320.213254      1
91053.547017       1
Name: total_income, dtype: int64

In [101]:
# Проверим количество оставшихся значений Null:
data_credit[data_credit['total_income'].isnull()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,wrong_values,days_category,purpose_category,children_category,work_category,age_category,income_level
5936,0,,58,высшее,0,женат / замужем,0,m,предприниматель,0,,покупка жилой недвижимости,0,,недвижимость,нет детей,свой бизнес,после 45 лет,


1 - вместо более 2 тыс.

Проверим соответствие медиан во всех группах. Создадим новую таблицу медиан и сравним их:

In [102]:
medians_income_new = data_credit[data_credit['total_income'].notna()].groupby(['age_category', 'income_type', 'education'])['total_income'].median()

In [103]:
medians_income == medians_income_new

age_category  income_type      education          
до 45 лет     безработный      среднее                True
              в декрете        среднее                True
              госслужащий      высшее                 True
                               начальное              True
                               неоконченное высшее    True
                               среднее                True
                               ученая степень         True
              компаньон        высшее                 True
                               начальное              True
                               неоконченное высшее    True
                               среднее                True
              предприниматель  высшее                 True
              сотрудник        высшее                 True
                               начальное              True
                               неоконченное высшее    True
                               среднее                True
     

Медианы совпадают.

##### Категоризация по семейному статусу

In [104]:
data_credit['family_status'].value_counts()

женат / замужем          12213
гражданский брак          4112
не женат / не замужем     2780
в разводе                 1179
вдовец / вдова             946
Name: family_status, dtype: int64

Как видно, исходные категории сходны или различаются по наличию / отсутствию семьи у заёмщика. Поэтому разделим выборку на семейных и одиноких:
- женат / замужем; гражданский брак - *есть семья*
- не женат / не замужем; в разводе; вдовец / вдова - *нет семьи*

In [105]:
def have_family(family_status):
    if family_status == 'женат / замужем' or \
    family_status == 'гражданский брак':
        return 'есть семья'
    elif family_status == 'не женат / не замужем' or \
    family_status == 'в разводе' or \
    family_status == 'вдовец / вдова':
        return 'нет семьи'
    else:
        return 'ошибочные данные' # "ловушка" для некорректных значений

In [106]:
data_credit['have_family'] = data_credit['family_status'].apply(have_family)

In [107]:
# проверка
data_credit['have_family'].value_counts()

есть семья    16325
нет семьи      4905
Name: have_family, dtype: int64

### Вывод<a id='step2.8'></a>

Благодаря выявлению общих или схожих характеристик в значениях *количества детей, типа занятости, возраста и семейного положения* было решено сгруппировать их в обобщенные категории для выявления более общих закономерностей.

Для этого были созданы необходимые дополнительные столбцы в таблице. Это позволит в дальнейшем выявить закономерности, присущие новым категориям, без излишней ненужной детализации.

Для числовых данных об уровне дохода было принято решение разделить выборку на приблизительно равные части с созданием более 2-х категорий для перепроверки общей закономерности.

Дополнительно для столбца с уровнем дохода *Null* значения были заменены на медианные по группам, предположительно влияющим на распределение дохода:
- возрастная группа - в целом, доход выше, чем больше возраст
- тип занятости (руководящая должность - больше доход)
- уровень образования (высшее - больший доход)

Была произведена тщательная проверка того, что не были заменены лишние данные и не было ошибки:
- изучение наиболее повторяющихся значений дохода
- неизменность среднего с учетом замен

Данные приведены к виду, пригодному для анализа и ответа на поставленные вопросы.

### Шаг 3. Ответы на вопросы<a id='step3'></a>

- Есть ли зависимость между наличием детей и возвратом кредита в срок?<a id='step3.1'></a>

Сгруппируем таблицу по ранее добавленным категориям детей. Все некорректные значения из столбца удалены, поэтому дополнительных фильтров не нужно.

In [108]:
debt_children = data_credit.groupby(['children_category','debt']).size()

In [109]:
debt_children

children_category  debt
два и более детей  0        2192
                   1         225
нет детей          0       12963
                   1        1058
один ребёнок       0        4351
                   1         441
dtype: int64

Как видно по количеству, в каждой группе достаточно данных для того, чтобы выборка была достаточно репрезентабельна. Для большей наглядности вычислим количество имеющих и неимеющих задолженности в каждой группе в *процентах*.

Сгруппируем таблицу для нахождения общего количества людей в каждой категории, вне зависимости от задолженности.

In [110]:
total_children = data_credit.groupby(['children_category']).size()

In [111]:
total_children

children_category
два и более детей     2417
нет детей            14021
один ребёнок          4792
dtype: int64

In [112]:
# разделим количество имеющих/неимеющих задолженности в каждой группе на общее количество людей в этой группе * 100:
percent_children = debt_children / total_children * 100

In [113]:
print('Зависимость возврата кредита в срок от наличия детей (в %)')
percent_children

Зависимость возврата кредита в срок от наличия детей (в %)


children_category  debt
два и более детей  0       90.690939
                   1        9.309061
нет детей          0       92.454176
                   1        7.545824
один ребёнок       0       90.797162
                   1        9.202838
dtype: float64

Как видно, сумма в процентах по каждой категории - 100. Дополнительно проверим, что соотношения не нарушены, для этого по каждой строке вычислим общее количество в группе, для этого разделим количество в подгруппах на соответствующее этому количество в процентах:

In [114]:
debt_children * 100 / percent_children

children_category  debt
два и более детей  0        2417.0
                   1        2417.0
нет детей          0       14021.0
                   1       14021.0
один ребёнок       0        4792.0
                   1        4792.0
dtype: float64

Проверка прошла успешно.

In [115]:
# Проанализируем полученные данные
percent_children

children_category  debt
два и более детей  0       90.690939
                   1        9.309061
нет детей          0       92.454176
                   1        7.545824
один ребёнок       0       90.797162
                   1        9.202838
dtype: float64

### Вывод

Зависимость есть, но разница менее чем в 2% при более чем 90% возврата в обоих случаях - незначительна. Если для бизнеса эта разница существенна, требуется дополнительная статистическая оценка.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?<a id='step3.2'></a>

Считаем аналогично:

In [116]:
debt_family = data_credit.groupby(['have_family','debt']).size()
debt_family

have_family  debt
есть семья   0       15019
             1        1306
нет семьи    0        4487
             1         418
dtype: int64

Значений в каждой группе достаточно для репрезентативности выборки.

In [117]:
total_family = data_credit.groupby('have_family').size()

In [118]:
total_family

have_family
есть семья    16325
нет семьи      4905
dtype: int64

In [119]:
percent_family = debt_family / total_family * 100

In [120]:
print('Зависимость возврата кредита в срок от наличия семьи (в %)')
percent_family

Зависимость возврата кредита в срок от наличия семьи (в %)


have_family  debt
есть семья   0       92.000000
             1        8.000000
нет семьи    0       91.478084
             1        8.521916
dtype: float64

In [121]:
# проверка сохранения соотношения:
debt_family * 100 / percent_family

have_family  debt
есть семья   0       16325.0
             1       16325.0
нет семьи    0        4905.0
             1        4905.0
dtype: float64

Ок!

### Вывод

Разница ещё меньше, менее 1%, и опять же несопоставима с более чем 90% возвратами. Зависимость незначительна.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?<a id='step3.3'></a>

Исключим оставленные в таблице **неверные** данные из выборки, а далее по аналогии.

In [122]:
# аналогичный расчёт
debt_income = data_credit[data_credit['total_income'].notna()].groupby(['income_level', 'debt']).size()
debt_income

income_level   debt
высокий        0       4711
               1        357
выше среднего  0       4415
               1        403
низкий         0       4068
               1        353
средний        0       6311
               1        611
dtype: int64

Значений в каждой группе достаточно для утверждения о достаточной степени репрезентативности выборки.

In [130]:
# считаем общее количество в группах для вычисления процентов
total_income = data_credit.groupby(['income_level']).size()
total_income

income_level
высокий          5068
выше среднего    4818
низкий           4421
средний          6922
dtype: int64

In [124]:
print('Зависимость возврата кредита в срок от уровня дохода (в %)')
percent_income = debt_income / total_income * 100
percent_income

Зависимость возврата кредита в срок от уровня дохода (в %)


income_level   debt
высокий        0       92.955801
               1        7.044199
выше среднего  0       91.635533
               1        8.364467
низкий         0       92.015381
               1        7.984619
средний        0       91.173071
               1        8.826929
dtype: float64

In [125]:
# Проверка сохранения соотношения:
debt_income * 100 / percent_income

income_level   debt
высокий        0       5068.0
               1       5068.0
выше среднего  0       4818.0
               1       4818.0
низкий         0       4421.0
               1       4421.0
средний        0       6922.0
               1       6922.0
dtype: float64

Всё верно, данные пригодны для анализа.

### Вывод

Высокий уровень дохода предсказуемо показал большую вероятность возврата кредита в срок, однако *средний* доход и *выше среднего* показали бОльшой процент задержек по возврату, нежели *низкий*, так что об однозначной зависимости сказать нельзя.

Различия в вероятности возврата кредита менее чем в 2% несопоставимо малы по сравнению с более чем 90% возврата у всех категорий, так что ей можно пренебречь. Однако если для бизнеса эта разница существенна, требуется дополнительная статистическая оценка.

- Как разные цели кредита влияют на его возврат в срок?<a id='step3.4'></a>

In [126]:
# многоуровневая группировка по категориям целей и возвратам:
debt_purpose = data_credit.groupby(['purpose_category', 'debt']).size()
debt_purpose

purpose_category  debt
автомобиль        0       3861
                  1        397
недвижимость      0       9926
                  1        777
образование       0       3601
                  1        369
свадьба           0       2118
                  1        181
dtype: int64

Данных в каждой категории достаточно для анализа.

In [127]:
# общее количество ссудозаёмщиков по каждой категории
total_purpose = data_credit.groupby('purpose_category').size()
total_purpose

purpose_category
автомобиль       4258
недвижимость    10703
образование      3970
свадьба          2299
dtype: int64

In [128]:
# вычисление данных в процентах:
print('Зависимость возврата кредита в срок от категории цели (в %)')
percent_purpose = debt_purpose / total_purpose * 100
percent_purpose

Зависимость возврата кредита в срок от категории цели (в %)


purpose_category  debt
автомобиль        0       90.676374
                  1        9.323626
недвижимость      0       92.740353
                  1        7.259647
образование       0       90.705290
                  1        9.294710
свадьба           0       92.127012
                  1        7.872988
dtype: float64

In [129]:
# проверка соотношения:
debt_purpose * 100 / percent_purpose

purpose_category  debt
автомобиль        0        4258.0
                  1        4258.0
недвижимость      0       10703.0
                  1       10703.0
образование       0        3970.0
                  1        3970.0
свадьба           0        2299.0
                  1        2299.0
dtype: float64

Всё верно, данные пригодны для анализа.

### Вывод

2% разницы несопоставимо малы по сравнению с 90% возврата, так что ей можно пренебречь, как и в предыдущих случаях. Если для бизнеса эта разница существенна, требуется дополнительная статистическая оценка.

### Шаг 4. Общий вывод<a id='step4'></a>

##### Начальный этап
Из первоначальной таблицы были удалены артефакты - некорректные значения по столбцам:
- *наличия детей*
- *пола*

Унифицированы значения в столбце с *уровнем образования* (проблема с регистром), другие столбцы так же приведены к нижнему регистру для однообразия.

Были определены некорректные значения в числовых столбцах:
- нулевой *возраст* - 101 шт.
- отрицательное число *отработанных дней* для работающих категорий - около 75% результатов
- дробные значения чисел для *отработанных дней и уровня дохода*

Отрицательные числа не трогались, т.к. в дальнейшем анализе не учитываются, а дробные числа округлены до целых.

Были выявлены и удалены полные дубликаты (71 шт.). Хотя у людей из списка нет ни паспортных данных, ни телефона, ни id, которые бы их однозначно характеризовали, вероятность совпадения по всем столбцам крайне мала и число таких дубликатов было незначительно (менее 1%), не влияло на общую статистику.

Были выявлены пропуски в количестве *отработанных дней* и *уровне дохода* у 10% людей из выборки. По типу занятости определено, что люди работают и эти пропуски нельзя просто заменить на 0. Из-за большого количества пропущенных значений было принято решение данные не удалять, а пометить как некорректные (для одного столбца).
Благодаря тому, что данные с пропусками не были удалены, а лишь помечены, это позволило сохранить больше (на 10%!) данных для анализа зависимости по *количеству детей, целям получения кредита и семейного положения*.

Все изменения в таблице перепроверялись.

##### Второй этап
Выделены категории, учитывая специфику для каждого критерия:
- для *количества детей* - меньшие категории (с большим количеством детей) объединены для сопоставимости по количеству итоговых групп
- для *уровня дохода* - с помощью найденной медианы для общей выборки и подвыборок исходная выборка разделена на приблизительно равные по количеству категории, для большей достоверности анализа, возможности его перепроверки на разных категориях дохода.
- для *целей кредита* - с помощью лемматизации выделены основные категории целей кредита, что позволило сократить общее количество категорий с *десятков* до 4-х.

Все изменения в таблице так же перепроверялись.

##### Выводы
При проверках возврата кредита в срок контролировалось достаточное количество людей в каждой категории, позволяющее повысить точность оценки, и для удобства данные переводились в проценты с перепроверкой соотношений.

Все проверки показали, что разница в 2% или менее (меньше всего проявились различия в зависимости от наличия/отсутствия семьи) между проверяемыми категориями несопоставимо мала по сравнению с более 90% возвратов кредита в срок, поэтому какие-либо выводы исходя из текущих данных и исследований делать преждевременно. Если для бизнеса **значительна эта разница**, нужно проводить более глубокую статистическую (*разброс значений*, оценка *погрешности* и т.п.) оценка для определения достоверности результатов.

Особенно информативной она будет для оценки *случайности противоречивости* результатов для 4 категорий по *уровню дохода*. Может быть, разброс значений, а следовательно, и *погрешность* измерений оказались чуть больше 2% разброса по среднему в данном случае, а следовательно, зависимость есть?

Поэтому *без более глубокой статистической оценки* (величина разброса и т.п.) или анализа нескольких выборок, нельзя утверждать, будет ли эта тенденция повторяться от выборки к выборке или совершенно случайна.