## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Основные вопросы
- Есть ли зависимость между наличием детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?

## Описание данных
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [4]:
import pandas as pd
data = pd.read_csv('C:\datasets\data.csv')
data.info()
data.head(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
(21525 - 19351) / 21525 * 100 # % пропущеннных значений от общего числа

10.099883855981417

> Например:

In [4]:
# data['days_employed'].isnull().sum() / len(data)

Взглянем на уникальные значения столбца о количестве детей. В столбце присутствуют аномальные значения, такие как -1 и 20.

In [15]:
data['children'].unique()
data.pivot_table(index='total_income', columns='debt', aggfunc='count')

Unnamed: 0_level_0,children,children,days_employed,days_employed,dob_years,dob_years,education,education,education_id,education_id,family_status,family_status,family_status_id,family_status_id,gender,gender,income_type,income_type,purpose,purpose
debt,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1
total_income,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2
2.066726e+04,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0
2.120528e+04,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,
2.136765e+04,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,
2.169510e+04,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,
2.189561e+04,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1.711309e+06,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,
1.715018e+06,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,
1.726276e+06,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,
2.200852e+06,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0,,1.0


### Вывод

**[[1]](#1)** В файле "data.csv" находится двумерный массив данных, состоящий из списка о 21525 клиентах банка. Клиенты описываются 12-ю признаками, из них 7 количественных и 5 категориальных.

Уровень образования клиентов ("*education*") указан заглавными и прописными буквами. Имеет смысл сделать возможным выбор с помощью выпадающего списка и исключить набор этих данных вручную. Далее приведем все значения к одному регистру.

В датасете имеются пропущенные значения по трудовоможу стажу ("*days_employed*") и ежемесячному доходу ("*total_income*") в количестве 2174 значений, что состовляет около 10% от всех значений. Это прилично, может повлиять на результат. Нужно проверить является ли причина отстуствия данных о ежемесячном заработке причиной отсутствия данных о трудовом стаже.
В пропущенные данные по ежемесчному доходу можем поместить медианные значения (т.к. разброс может быть большим) по типу занятости.

**[[2]](#group_by_years)** В столбце о трудовом стаже ("*days_employed*") находится больше всего аномальных значений: положительные и отрицательные, невероятно большие (исчисляемые тысячами).

**[[3]](#children)** В столбце о колличетсве детей ("*children*") находятся отрицательные значения, буду отталкиваться от того, что минус был указан случайно. Также присутствует значения 20. Маловероятно, что у кого-то имеется столько детей, предположу, что хотели указать 2, так что нулем можно принебречь. 

**[[4]](#gender)** В столбце с указанием пола ("*gender*") присутствует значение "XNA" на единственной строке.

### Шаг 2. Предобработка данных

### Обработка пропусков

<a name="1">**[1]**</a> Обработка пустых значенй столбцов ежемесячного дохода ("*total_income*") и трудового стажа ("*days_employed*").

#### Проверим гипотезу: является ли отсутсвие данных о ежемесячном доходе причиной отсутствия данных о трудовом стаже.

In [5]:
# Выведем все строки, где в столбцах о трудовом стаже и месячном доходе отсутствуют значения
data.loc[(data['total_income'].isnull()) & (data['days_employed'].isnull())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Получилось 2174. Получили все строки, где у нас были пропуски. Получается там, где пропущенно значения ежемесячного дохода, пропущен и трудовой стаж. Это определенно связано.

#### Подставим медианную зарплату по типу занятости.

In [6]:
data[data['total_income'].isnull()]['income_type'].value_counts() # Проверим в каких типах занятости встречаются пропущенные значения

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

Подсчитаем медианную зарплату для всех типов занятости.

In [7]:
total_income_median = data.groupby('income_type')['total_income'].median()
total_income_median

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64

Подставим значения медианной зарплаты в пропуски, отталкиваясь от типа занятости.

In [8]:
data.loc[(data['income_type'] == 'сотрудник') & (data['total_income'].isnull()), 'total_income'] = total_income_median[6]
data.loc[(data['income_type'] == 'компаньон') & (data['total_income'].isnull()), 'total_income'] = total_income_median[3]
data.loc[(data['income_type'] == 'пенсионер') & (data['total_income'].isnull()), 'total_income'] = total_income_median[4]
data.loc[(data['income_type'] == 'госслужащий') & (data['total_income'].isnull()), 'total_income'] = total_income_median[2]
data.loc[(data['income_type'] == 'предприниматель') & (data['total_income'].isnull()), 'total_income'] = total_income_median[5]

<a name="group_by_years">**[2]**</a> Проставим пропуски трудового стажа по медианному значению возрастных групп. Для этого сначала выделим возрастные группы равными промежутками:
 * до 20
 * 21 - 30
 * 31 - 40
 * 41 - 50
 * 51 - 60
 * 61 - 70
 * от 71

In [9]:
# напишем функцию для категоризации возрастных групп
def age_group(age):
    if age <= 20:
        return "до 20"
    elif 20 < age <= 30:
        return "21 - 30"
    elif 30 < age <= 40:
        return "31 - 40"
    elif 40 < age <= 50:
        return "41 - 50"
    elif 50 < age <= 60:
        return "51 - 60"
    elif 60 < age <= 70:
        return "61 - 70"
    elif 70 < age:
        return "от 71"

# создадим новый столбец с категориями возрастов, применив функцию
data['age_group'] = data['dob_years'].apply(age_group)

Подсчитаем медианные значения для каждой возрастной группы.

<div class="alert alert-success">
<h2> Комментарий ревьюера</h2>

Интересная идея по замене возраста.
    
</div>

In [10]:
days_employed_median = data.groupby('age_group')['days_employed'].median()
print(days_employed_median)

# посмотрим в каких группах пропущенны значения
data[data['days_employed'].isnull()]['age_group'].value_counts()

age_group
21 - 30     -1059.375292
31 - 40     -1601.812856
41 - 50     -1953.776789
51 - 60      -551.486703
61 - 70    356081.013729
до 20        -894.690178
от 71      360170.422884
Name: days_employed, dtype: float64


31 - 40    573
41 - 50    522
51 - 60    489
21 - 30    351
61 - 70    215
до 20       16
от 71        8
Name: age_group, dtype: int64

Заменим пропуски трудового стажа на медианные значения аналогичных возрастных групп.

In [11]:
data.loc[(data['age_group'] == '31 - 40') & (data['days_employed'].isnull()), 'days_employed'] = days_employed_median[1]
data.loc[(data['age_group'] == '41 - 50') & (data['days_employed'].isnull()), 'days_employed'] = days_employed_median[2]
data.loc[(data['age_group'] == '51 - 60') & (data['days_employed'].isnull()), 'days_employed'] = days_employed_median[3]
data.loc[(data['age_group'] == '21 - 30') & (data['days_employed'].isnull()), 'days_employed'] = days_employed_median[0]
data.loc[(data['age_group'] == '61 - 70') & (data['days_employed'].isnull()), 'days_employed'] = days_employed_median[4]
data.loc[(data['age_group'] == 'до 20') & (data['days_employed'].isnull()), 'days_employed'] = days_employed_median[5]
data.loc[(data['age_group'] == 'от 71') & (data['days_employed'].isnull()), 'days_employed'] = days_employed_median[6]

Приведем все варианты написания образования ("*educaton*") к нижнему регистру.

In [12]:
# взглянем на список уникальных значений столбца
data.groupby('education')['education'].count()

education
ВЫСШЕЕ                   274
Высшее                   268
НАЧАЛЬНОЕ                 17
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
Начальное                 15
Неоконченное высшее       47
СРЕДНЕЕ                  772
Среднее                  711
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
высшее                  4718
начальное                250
неоконченное высшее      668
среднее                13750
ученая степень             4
Name: education, dtype: int64

Все символы можно привести к нижнему регистру без потери данных, исходя из значений столбца образования

In [13]:
# приводим все символы в нижний регистр в столбце 'education'
data['education'] = data['education'].str.lower()

<a name="children">**[3]**</a> Далее заменим значения в столбце о количестве детей ("*children*"). Предположу, что значения 20 можно заменить 2, т.к. был допущен человеческий фактор. Отрицательные значения заменим положительными по тому же принципу.

In [14]:
data.loc[(data['children'] == 20), 'children'] = 2
data.loc[(data['children'] == -1), 'children'] = 1

<a name="gender">**[4]**</a> Взгянем на значения столбца c выбором пола "*gender*".

In [15]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Обнаружилось неизвестное значение "XNA" на 1 одной строке. Считаю допустимым удалить эту строку без вызова расхождений в дальнейшем анализе.

In [16]:
data = data[data['gender'] != 'XNA']

### Вывод

In [17]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21524 entries, 0 to 21524
Data columns (total 13 columns):
children            21524 non-null int64
days_employed       21524 non-null float64
dob_years           21524 non-null int64
education           21524 non-null object
education_id        21524 non-null int64
family_status       21524 non-null object
family_status_id    21524 non-null int64
gender              21524 non-null object
income_type         21524 non-null object
debt                21524 non-null int64
total_income        21524 non-null float64
purpose             21524 non-null object
age_group           21524 non-null object
dtypes: float64(2), int64(5), object(6)
memory usage: 2.3+ MB


**Были заполнены все пропуски:**
<li>В пропущенные значения ежемесячного дохода мною были подставлены медианные значения для каждого типа занятости.</li>
<li>Обработаны данные о трудовом стаже с использованием медианных значений для каждой возрастной категории. Категории были разбиты на одинаковые отрезки. В данных этого столбца явная ошибка, но на наш результат она не повлияют. Возможно отрицательные значения каким-то другим образом обозначают стаж. В больших значениях кажется стаж указан не в днях. Необходимо уточнения от человека, выгражавшего данные.</li>
<li>Приведены все значения столбца образования в нижний регистр</li>
<li>Были исправлены значения о количестве детей из предположения, что они были неправильно внесены в базу данных.</li>
<li>В столбце с выбором пола было найдено значение, которое не имеет никакого смысла. Предполагаю оно было вызвано техническим сбоем при выгрузке данных. Т.к. эта ошибка была допущена лишь на одной строке, она не скажется на результах работы с данными. Поэтому она была удалена.</li>


<div class="alert alert-success">
<h2> Комментарий ревьюера</h2>

Отлично, пустые данные обработали. Это очень важный этап в каждой работе, именно от него зависят наши дальнейшие расчеты и выводы соответственно.
</div>

### Замена типа данных

Взглянем на типы данных столбцов

In [18]:
data.dtypes

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
age_group            object
dtype: object

Заменим вещественный тип данных на целочисленный в столбцах трудовго стажа ("*days_employed*") и ежемесячного дохода ("*total_income*")

In [19]:
data['days_employed'] = data['days_employed'].astype(int)
data['total_income'] = data['total_income'].astype(int)
data.dtypes # проверим

children             int64
days_employed        int64
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int64
purpose             object
age_group           object
dtype: object

### Вывод

В столбцах трудовго стажа и ежемесячного дохода использовались значения с плавающей точкой. Для наглядности была произведена замена вещественных значений на целочисленные методом *astype*, который в отличии от метода *to_numeric* способен перевести значения в int64. Поставленным вопросам это никак не помешает, но будет куда лучше выглядеть.

### Обработка дубликатов

Первым шагом было приведение всех значений к единому виду, что и мною сделано в столбце образования ("*education*").
Далее воспользуемся методом *duplicated()*, т.к. у нас двумерный массив данных (не Series) и применять я его буду ко всему датафрейму.

In [20]:
print('Количество дубликатов во всем массиве', data.duplicated().sum())
print('Количество полностью идентичных строк в массиве', data.duplicated(keep = False).sum())
print('Доля дубликатов от общего масива данных {:.2%}'.format(data.duplicated().sum() / len(data)))

Количество дубликатов во всем массиве 71
Количество полностью идентичных строк в массиве 137
Доля дубликатов от общего масива данных 0.33%


Выведем часть дублированных строк для наглядности.

In [21]:
data[data.duplicated(keep = False)].sort_values(by = 'dob_years').head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
20297,1,-1059,23,среднее,1,гражданский брак,1,F,сотрудник,0,142594,сыграть свадьбу,21 - 30
8853,1,-1059,23,среднее,1,гражданский брак,1,F,сотрудник,0,142594,сыграть свадьбу,21 - 30
15892,0,-1059,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,142594,сделка с подержанным автомобилем,21 - 30
19321,0,-1059,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,142594,сделка с подержанным автомобилем,21 - 30
3452,0,-1059,29,высшее,0,женат / замужем,0,M,сотрудник,0,142594,покупка жилой недвижимости,21 - 30
18328,0,-1059,29,высшее,0,женат / замужем,0,M,сотрудник,0,142594,покупка жилой недвижимости,21 - 30
4216,0,-1059,30,среднее,1,женат / замужем,0,M,сотрудник,0,142594,строительство жилой недвижимости,21 - 30
6312,0,-1059,30,среднее,1,женат / замужем,0,M,сотрудник,0,142594,строительство жилой недвижимости,21 - 30
18349,1,-1059,30,высшее,0,женат / замужем,0,F,госслужащий,0,150447,покупка жилья для семьи,21 - 30
8629,1,-1059,30,высшее,0,женат / замужем,0,F,сотрудник,0,142594,покупка коммерческой недвижимости,21 - 30


In [22]:
# удаление дубликатов
data = data.drop_duplicates().reset_index(drop = True)

print('Количество дубликатов во всем массиве после удаления:', data.duplicated().sum())

Количество дубликатов во всем массиве после удаления: 0


### Вывод

<li>Первым делом для поиска дубликатов необходимо было привести все значения строк к единому регистру. Так было сделано со столбцом образования ("*education*"). В дальнейшем нужно сделать возможость выбора образования из выпадающего списка для исключения подобных ошибок в данных</li>
<li>Были обнаружены дубликаты в количестве 71 шт. Это состовляет 0.33% от всего массива данных. Для удаления дубликатов использовался метод *drop_duplicates()*, т.к. он предназначен для поиска идентичных строк. Появление дубликатов возможно связано с человечским фактором или технической ошибкой.</li>

### Лемматизация

In [23]:
# подключим библеотеки с функцией лемматизации pymystem3 и подсчета лемм Counter
from pymystem3 import Mystem
from collections import Counter
m = Mystem()

Выделим все цели на получение кредита:

In [24]:
data['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      620
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

<a name="lemmas">[5]</a> Выделим основные слова из представленных целей, но так, чтобы они отражали общий смысл для дальнейшей категоризации и облегчения анализа

In [25]:
category = ['коммерческий', 'свадьба', 'недвижимость', 'автомобиль', 'образование', 'жилье']

# функция для лематизации и замены леммы на слово из нашего списка
def lemmatize_to_catygory(text):
    lemmas = m.lemmatize(text)
    for i in category:
        if i in lemmas:
            lemmas = i
    return lemmas

# применим функцию к столбцу и выведем количество упоминаний наших категорий
data['purpose_category'] = data['purpose'].apply(lemmatize_to_catygory)
data['purpose_category'].value_counts()

недвижимость    5039
жилье           4460
автомобиль      4306
образование     4013
свадьба         2324
коммерческий    1311
Name: purpose_category, dtype: int64

### Вывод

Из всех целей получения кредита вручную были выделены основные ключевые слова в список "*category*". Далее написана функция, которая производит лемматизацию целей, сравнивает выделенные леммы с нашим списком и выводит в новый столбец "*purpose_category*" слово из списка "*category*". Таким образом мы произвели категоризацию с помощью лемм.

Наиболее часто кредиты берут с целью их вложить в недвижимость/жилье. 2-ое место делят автомобили и образование.

### Категоризация данных

Ранее мной уже была использована категоризация данных для возможности заполнения пропусков. По возрасту с разбиением на равные отрезки с одинаковым шагом [[2]](#group_by_years) и по целям получения кредита с помощью лемм [[5]](#lemmas).

Однако, для ответа на поставленные вопросы необходимо еще категоризировать наличие детей [[6]](#6) и уровень дохода [[7]](#7). Начнем с детей. Для этого напишем функцию.

In [26]:
# функция для создания нового столбца, где будем обозначать наличие детей за 1, а их отсутствие за 0. Так называемые булевы значения
def children_exist(row):
    children = row['children']
    if children > 0:
        return 1
    return 0

# применим функцию для создания нового столбца с булевыми значениями
data['children_exist'] = data.apply(children_exist, axis = 1)
# проверка
data.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,purpose_category,children_exist
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,41 - 50,жилье,1
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,31 - 40,автомобиль,1
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,31 - 40,жилье,0
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,31 - 40,образование,1
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,51 - 60,свадьба,0


<a name="7">[7]</a> Далее необходимо категоризировать уровень дохода. Для классификации возьмем МРОТ (12130 руб.), ниже его уровня обозначим "за чертой бедности". В отрезке МРОТ - медианная зарплата по России (34500 руб.), т.к. неизвестно с какого города наш массив данных рассмотрим низкий доход. Т.к. понятие высокий доход не имеет четкого определения будем рассматривать его как зарплату большую, чем средняя заработная плата по Москве (88900 руб.). Сверхвысокий доход обозначу значением субъективным, больше 150 тыс. руб.

In [27]:
# функция категоризации уровня дохода
def total_income_catygory(total_income):
    if total_income <= 12130:
        return "За чертой бедности"
    elif 12130 < total_income <= 34500:
        return "Низкий доход"
    elif 34500 < total_income <= 88900:
        return "Средний доход"
    elif 88900 < total_income <= 150000:
        return "Высокий доход"
    return "Сверхвысокий доход"

# применим функцию к столбцу total_income
data['total_income_group'] = data['total_income'].apply(total_income_catygory)

# проверим
data.head(3)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,purpose_category,children_exist,total_income_group
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,41 - 50,жилье,1,Сверхвысокий доход
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,31 - 40,автомобиль,1,Высокий доход
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,31 - 40,жилье,0,Высокий доход


### Вывод

**Были категоризированы возрастные группы** с точки зрения разделения на равные отрезки. Считаю это допустимым без потери результата.

In [28]:
data['age_group'].value_counts()

31 - 40    5732
41 - 50    5260
51 - 60    4518
21 - 30    3651
61 - 70    2022
до 20       166
от 71       104
Name: age_group, dtype: int64

In [29]:
5732 / 21525 * 100

26.629500580720094

In [30]:
data['age_group'].value_counts('31 - 40')

31 - 40    0.267189
41 - 50    0.245187
51 - 60    0.210600
21 - 30    0.170186
61 - 70    0.094253
до 20      0.007738
от 71      0.004848
Name: age_group, dtype: float64

Больше всего заемщиков находится в промежутке возраста 31 - 40, что составляет 26,6% от общего числа заемщиков.

**Были категоризированы цели полученния кредита** с помощью лемм и ключевых слов, выделенных мною вручную.

In [31]:
data['purpose_category'].value_counts()

недвижимость    5039
жилье           4460
автомобиль      4306
образование     4013
свадьба         2324
коммерческий    1311
Name: purpose_category, dtype: int64

In [32]:
(5039 + 4460) / 21525 * 100

44.130081300813

Видим, что в основном клиенты берут кредиты для операций с недвижимостью/жильем, их количество состовляет аж 44,1%.

**Категоризация по наличию детей**

In [33]:
data['children_exist'].value_counts()

0    14090
1     7363
Name: children_exist, dtype: int64

In [34]:
# процент клиентов без детей
14090 / 21525 * 100

65.45876887340302

Большая часть заемщиков не имеет детей.

**Категоризация по группам дохода**. Для разбиения на группы основывался на МРОТ, медианной зарплате по России и Москве.

In [35]:
data['total_income_group'].value_counts()

Сверхвысокий доход    9830
Высокий доход         8384
Средний доход         3177
Низкий доход            62
Name: total_income_group, dtype: int64

Большая часть клиентов имеет хороший доход.

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Для ответа на этот вопрос создадим сводную таблицу со столбцами о наличии детей и наличии задолжностей по кредитам.

In [36]:
data_pivot_debt_children = data.pivot_table(index = ['children_exist'], values = 'debt').round(3)
data_pivot_debt_children.sort_values(by = 'debt', ascending = False)

Unnamed: 0_level_0,debt
children_exist,Unnamed: 1_level_1
1,0.092
0,0.075


### Вывод

Как мы видим из сводной таблицы наличие детей увеличивает шанс не выплатить кредит в срок. Это логично и объяснимо. Среднестатисческий человек в сложной ситуации предпочтет обеспечить своего ребенка, нежели вернуть деньги банку.

**Вероятность появления задолженности**
<li>9,2% клиентов с детьми</li>
<li>7,5% клиентов без детей</li>


- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [37]:
data_pivot_debt_family_status = data.pivot_table(index = "family_status", values = 'debt').round(3)
data_pivot_debt_family_status.sort_values(by = 'debt', ascending = False)

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
Не женат / не замужем,0.098
гражданский брак,0.093
женат / замужем,0.075
в разводе,0.071
вдовец / вдова,0.066


### Вывод

Как мы видим, человек, который хоть раз был в браке имеет большую вероятность погасить кредит в срок без задолжностей. Видимо брак делает человека более ответственным.

**Вероятность появления задолженности**
<li>Не женат / не замужем - 9,8%</li>
<li>Гражданский брак - 9,3%</li>
<li>Женат / замужем - 7,5%</li>
<li>В разводе - 7.1%</li>
<li>Вдовец / вдова - 6,6%</li>

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [38]:
data_pivot_debt_income = data.pivot_table(index = 'total_income_group', values = 'debt').round(3)
data_pivot_debt_income.sort_values(by = 'debt', ascending = False)

Unnamed: 0_level_0,debt
total_income_group,Unnamed: 1_level_1
Высокий доход,0.087
Сверхвысокий доход,0.078
Средний доход,0.077
Низкий доход,0.048


### Вывод

Как ни странно, но чем выше доход, тем большая вероятность задолженности по возврату кредита. По всей видимости, чем человек меньше зарабатывает, тем лучше умеет распоряжаться средствами.

**Вероятность появления задолженности**
<li>Высокйи доход - 8,7%</li>
<li>Сверхвысокий доход - 7,8%</li>
<li>Средний доход - 7,7%</li>
<li>Низкий доход - 4,8%</li>

- Как разные цели кредита влияют на его возврат в срок?

In [39]:
data_pivot_debt_purpose = data.pivot_table(index = 'purpose_category', values = 'debt').round(3)
data_pivot_debt_purpose.sort_values(by = 'debt', ascending = False)

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
автомобиль,0.094
образование,0.092
свадьба,0.08
коммерческий,0.076
недвижимость,0.074
жилье,0.069


### Вывод

Судя по данным, клиенты при покупке недвижимости имеют большую вероятность вернуть кредит в срок. На первом месте по задолженностям находятся клиенту, покупающие автомобиль, на втором образование. Такое происходит скорее всего из-за того, что при покупке жилья, человек более ответственно будет платить, т.к. потерять жилье куда страшнее, нежели потерять автомобиль. Так же часть недвижимости приобретается с инвестиционной целью, она начинает приносить доход и кредит проще погасить в срок.

**Вероятность появления задолженности по цели кредита**
<li>Автомобиль - 9,4%</li>
<li>Образование - 9,2%</li>
<li>Свадьба - 8%</li>
<li>Коммерческий - 7,6%</li>
<li>Недвижимость - 7,4%</li>
<li>Жилье - 6,9%</li>

### Шаг 4. Общий вывод

В предоставленных данных отуствовало около 10% значений по разным столбцам. **Первым этапом** было произведено заполнение недостоющих данных. Таким образом, пропущенные значения в столбце с ежемесячными доходами были заполнены с помощью медианных зарплат по типу занятости. 

In [40]:
total_income_median.astype('int64')

income_type
безработный        131339
в декрете           53829
госслужащий        150447
компаньон          172357
пенсионер          118514
предприниматель    499163
сотрудник          142594
студент             98201
Name: total_income, dtype: int64

Далее обработаны пропущенные значения трудового стажа с помощью медианных значений. Для этого были выделены возрастные группы.

In [41]:
data['age_group'].value_counts()

31 - 40    5732
41 - 50    5260
51 - 60    4518
21 - 30    3651
61 - 70    2022
до 20       166
от 71       104
Name: age_group, dtype: int64

- Приведны значения к одному регистру столбца об образовании; 
- Исправлены значения о количестве детей;
- Исправлены аномальные значения выбора пола.

In [42]:
data.groupby('education')['education'].unique()

education
высшее                              [высшее]
начальное                        [начальное]
неоконченное высшее    [неоконченное высшее]
среднее                            [среднее]
ученая степень              [ученая степень]
Name: education, dtype: object

**Вторым этапом** выполнена смена вещественных значений на целочисленные в столбцах трудовго стажа и ежемясчного дохода.

**Третим этапом** обработаны дубликаты в значениях, хоть их доля и была незначительной **0.33%**.

**Четвертым этапом** произведена лемматизация целей получения кредита и оперделены категории для дальнейшего использования.

In [43]:
data['purpose_category'].value_counts()

недвижимость    5039
жилье           4460
автомобиль      4306
образование     4013
свадьба         2324
коммерческий    1311
Name: purpose_category, dtype: int64

**Пятым этапом** проведена категоризация по наличию детей, выделения категорий по доходам. Для выделения категорий доходов использованы МРОТ, медианная зарплата по России и среданяя по Москве.

**Шестым этапом** был дан ответ на поставленные вопросы. Благодоря полученым ответам можно составить описание идеального заемщика. Описание будет верно и для клиента женского пола (в дальнейшем имеет смысл рассмотреть зависимость от пола).

<div class="alert alert-dark">
    <i>Мужчина, находящийся в браке, без детей, зарабатывающий от 150 тыс. рублей в месяц с целью приобритения кредита для покупки недвижимости или собственного жилья.</i>
</div>

Такой портрет говорит о высоком доходе, некоторой степени ответсвтенности (о чем свидетельствует брак) и отсутствии финансовых обязательств (в виде иждевенцев). Такой человек имеет средства на выплату кредита.