## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [1]:
import pandas as pd
data = pd.read_csv('dataset/data.csv', index_col=0)
data.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [2]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


### Вывод

* В представленной таблице в столбцах days_employed и total_income имеются пустые значения. 
* Так же бросается в глаза что столбец days_emloyed имеют вещественные и отрицательные значения. 
* В столбце education имеются различия в регистре. 
* Столбец total_income так же имеет вещественные значения.

### Шаг 2. Предобработка данных

### Обработка пропусков

In [3]:
data = data.fillna(0)
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


 Пропуски заполним нулевыми значениями для безошибочного преобразования в целочисленный формат.

In [4]:
data['days_employed'] = abs(data['days_employed'].astype('int'))
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Избавились от знака в общем трудовом стаже ('days_employed') и преобразовали в целочисленный вид.

In [5]:
data['total_income']=data['total_income'].round(2)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу


In [6]:
data[data['total_income']<0].count()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

В столбце ежемесячного дохода ('total_income'): 
* округлили денежное выражение до двух знаков после запятой
* проверили что нет отрицательных зарплат

In [7]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Обнаружено отрицательное количество детей и выброс в 20 детей (в современном мире такое количество кажется не возможным, если только эти люди не организовали домашний приют и не оформили всех детей на себя).

In [8]:
young_dob = data[data['dob_years']<18]
young_dob['dob_years'].value_counts()

0    101
Name: dob_years, dtype: int64

Проверено количество заемщиков, которые не имеют законного права брать кредит и выявлены позиции с нулевым возрастом клиента.

In [9]:
data['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64

In [10]:
data['education'] = data['education'].str.lower()
data['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

В графе образование выявлены нарушения регистра и выполнено преобразование.

In [11]:
data['education_id'].value_counts()

1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64

In [12]:
data['family_status'].value_counts()
data['family_status'] = data['family_status'].str.lower()
data['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

Приводим все к нижнему регистру на радость внутреннему перфекционисту.

In [13]:
data['family_status_id'].value_counts()

0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64

In [14]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [15]:
data[data['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.16,покупка недвижимости


Пол этого заемщика не известен.

In [16]:
data['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
в декрете              1
студент                1
Name: income_type, dtype: int64

In [17]:
data['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

In [18]:
print('total_income max =',data['total_income'].max())
print('total_income min =',data['total_income'].min())
print('total_income median =',data['total_income'].median())

total_income max = 2265604.03
total_income min = 0.0
total_income median = 135514.71


Наблюдается выброс по зарплате и так же присутствуют потери данных в виде нулевых значений.

In [19]:
data['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

### Вывод

Проведенных исследования по всем столбцам.
Заполнены значения по трудовому стажу и зарплате, в данный момент на нулевые значения.
Предположительно вывод был искажен из-за неверных настроек регистратора.
По остальным столбцам были обнаружены нарушения регистра, не стандартный возраст, пол и зарплата заемшиков.
Столбец с целями кредита требует лемматизации по значениям, поскольку имеет по разному сформулированные сходные категории.

### Замена типа данных

Оценим записи с отрицательным количеством детей.

In [20]:
data[data['children']<0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
291,-1,4417,46,среднее,1,гражданский брак,1,F,сотрудник,0,102816.35,профильное образование
705,-1,902,50,среднее,1,женат / замужем,0,F,госслужащий,0,137882.9,приобретение автомобиля
742,-1,3174,57,среднее,1,женат / замужем,0,F,сотрудник,0,64268.04,дополнительное образование
800,-1,349987,54,среднее,1,не женат / не замужем,4,F,пенсионер,0,86293.72,дополнительное образование
941,-1,0,57,среднее,1,женат / замужем,0,F,пенсионер,0,0.0,на покупку своего автомобиля
1363,-1,1195,55,среднее,1,женат / замужем,0,F,компаньон,0,69550.7,профильное образование
1929,-1,1461,38,среднее,1,не женат / не замужем,4,M,сотрудник,0,109121.57,покупка жилья
2073,-1,2539,42,среднее,1,в разводе,3,F,компаньон,0,162638.61,покупка жилья
3814,-1,3045,26,среднее,1,гражданский брак,1,F,госслужащий,0,131892.79,на проведение свадьбы
4201,-1,901,41,среднее,1,женат / замужем,0,F,госслужащий,0,226375.77,операции со своей недвижимостью


Предположительно значением "-1" так же обозначалось отсутсвие детей.
Заменим это значение на "0".

In [21]:
data['children'] = data['children'].replace(-1,0)

In [22]:
data['children'].value_counts()

0     14196
1      4818
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64

Рассмотрим теперь позиции с детьми больше 5.

In [23]:
data[data['children']>5].sort_values(by='days_employed')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21390,20,0,53,среднее,1,женат / замужем,0,M,компаньон,0,0.00,покупка жилой недвижимости
19774,20,0,59,среднее,1,гражданский брак,1,F,пенсионер,0,0.00,сыграть свадьбу
3302,20,0,35,среднее,1,не женат / не замужем,4,F,госслужащий,0,0.00,профильное образование
3396,20,0,56,высшее,0,женат / замужем,0,F,компаньон,0,0.00,высшее образование
6198,20,0,35,высшее,0,не женат / не замужем,4,M,компаньон,0,0.00,жилье
...,...,...,...,...,...,...,...,...,...,...,...,...
5362,20,355898,69,среднее,1,женат / замужем,0,M,пенсионер,0,138579.08,автомобили
7789,20,360485,55,среднее,1,женат / замужем,0,F,пенсионер,0,138626.76,строительство собственной недвижимости
5349,20,361744,64,среднее,1,вдовец / вдова,2,F,пенсионер,0,81926.82,операции с жильем
14355,20,378510,56,среднее,1,женат / замужем,0,F,пенсионер,0,127947.13,сделка с подержанным автомобилем


In [24]:
child_mod_median = (data['children']<=5).median()
child_mod_median

1.0

Определив медиану заменим значение в 20 детей на медианальное.

In [25]:
data['children'] = data['children'].replace(20, child_mod_median)
data[data['children']> 5]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


Позиций где детей больше 5 больше нет.

In [26]:
data[data['dob_years']< 1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541,0,среднее,1,женат / замужем,0,F,пенсионер,0,71291.52,автомобиль
149,0,2664,0,среднее,1,в разводе,3,F,сотрудник,0,70176.44,операции с жильем
270,3,1872,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.46,ремонт жилью
578,0,397856,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.69,строительство собственной недвижимости
1040,0,1158,0,высшее,0,в разводе,3,F,компаньон,0,303994.13,свой автомобиль
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,0,0,среднее,1,женат / замужем,0,F,сотрудник,0,0.00,жилье
20462,0,338734,0,среднее,1,женат / замужем,0,F,пенсионер,0,259193.92,покупка своего жилья
20577,0,331741,0,среднее,1,не женат / не замужем,4,F,пенсионер,0,129788.76,недвижимость
21179,2,108,0,высшее,0,женат / замужем,0,M,компаньон,0,240702.01,строительство жилой недвижимости


Заменим нулевой возраст на медианное округленное значение.

In [27]:
dob_years_median = data['dob_years'].median()
data['dob_years'] = data['dob_years'].replace(0, dob_years_median)
data[data['dob_years']<0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


Нулевые значения возраста отсутствуют.

In [28]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Поскольку большинство заемщиков женского пола, предположим что потерянный пол тоже женский.

In [29]:
data['gender'] = data['gender'].replace('XNA','F')
data['gender'].value_counts()

F    14237
M     7288
Name: gender, dtype: int64

Определим моду по среднемесячной зарплате.

In [30]:
data['total_income'].sort_values().tail(50)

15660     735103.27
9510      750240.01
39        754240.80
13440     757516.87
3996      758821.81
11478     773136.75
14213     786451.62
4740      812559.32
21295     816023.12
1858      818648.36
6645      822426.02
5044      829016.67
10199     841836.85
16533     853367.81
7893      858235.07
16189     859327.80
19303     862447.72
17177     866784.79
19302     868543.31
6483      900855.47
3097      910451.47
5289      920897.72
13926     958434.58
8299      967425.42
10613     997014.30
4129     1004476.45
9156     1006468.11
18347    1027742.28
4415     1030899.17
15047    1058193.47
1590     1089120.31
19338    1091627.59
18766    1092608.20
10004    1097954.74
9871     1103455.43
13090    1128836.26
15211    1172459.83
19813    1223042.48
7447     1240165.00
2224     1278622.61
11071    1286281.00
15268    1350245.61
18353    1427934.46
18368    1551152.89
17503    1597613.49
17178    1711309.27
20809    1715018.39
9169     1726276.01
19606    2200852.21
12412    2265604.03


Верхняя граница представляется равномерной.

In [31]:
(data['total_income']==0).sum()

2174

Поскольку столбец ежемесячных доходов представляется более-менее равномерным, выделим средний арифметический показатель и применим ко всем нулевым значениям.

In [32]:
zero_income = data[data['total_income']>0]
income_mean = round(zero_income['total_income'].mean(),2)
income_mean
data['total_income'] = data['total_income'].replace(0, income_mean)


In [33]:
data[data['total_income']==0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


### Вывод

Возможные ошибки исправлены и пропущенные значения приведены к медианным или средним показателям.
Последний столбец будет обработан в части "Лемматизация".

### Обработка дубликатов

In [34]:
data.duplicated().sum()

72

In [35]:
data = data.drop_duplicates().reset_index(drop=True)
data.duplicated().sum()

0

### Вывод

Во всей таблице, после преобразований были обнаружены 72 дубликата и удалены.
Индексы переназначены.

### Лемматизация

In [36]:
from pymystem3 import Mystem
m = Mystem()

Выделим перечень уникальных слов минуя пробелы и посчитаем их частоту.

In [37]:
all_words = []
unique_words = []
for row in data['purpose']:
    lemmas = m.lemmatize(row)
    for word in lemmas:
        if (word != ' ') and (word != '\n'):
            all_words.append(word)
for w in all_words:
    if w not in unique_words:
        unique_words.append(w)

print(unique_words)
print()
print(data['purpose'].unique())

['покупка', 'жилье', 'приобретение', 'автомобиль', 'дополнительный', 'образование', 'сыграть', 'свадьба', 'операция', 'с', 'на', 'проведение', 'для', 'семья', 'недвижимость', 'коммерческий', 'жилой', 'строительство', 'собственный', 'подержать', 'свой', 'со', 'заниматься', 'сделка', 'подержанный', 'получение', 'высокий', 'профильный', 'сдача', 'ремонт']

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомо

### Вывод

* Мы выделили все возможные леммы из нашего же перечня, для минимизации ошибок и потери времени на подборе верных категорий.
* Сравнили полученные уникальные леммы и уникальные значения в целях кредита.
* P.S. Можно было, похоже, через класс Counter добыть уникальные значения вызывая ключи словаря, но эта идея потребует подключения дополнительной библиотеки и возможных трудностей.

### Категоризация данных

Сравнив список лемматизатора и уникальных позиций сформируем список с категориями.

In [38]:
PURPOSE_CATEGORY = ('жилье', 'автомобиль', 'образование', 'свадьба', 'недвижимость')
def categorize (row):
    purpose = row['purpose']
    lemmas = m.lemmatize(purpose)
    for lemma in lemmas:
        if lemma in PURPOSE_CATEGORY:
            return lemma

Проверим функцию перед категоризацией по леммам.

In [39]:
row_value = ['сыграть свадьбу']
row_column = ['purpose']
row = pd.Series(data=row_value, index=row_column)
print(categorize(row))

свадьба


Создадим новый столбец с разделением на категории по цели кредита.

In [40]:
data['purpose_category'] = data.apply(categorize, axis=1)

Простетируем вывод и посчитаем количество элементов.

In [41]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья,жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья,жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу,свадьба
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.57,покупка жилья,жилье
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97,операции с жильем,жилье
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823.93,образование,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856.83,на проведение свадьбы,свадьба
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.94,покупка жилья для семьи,жилье


In [42]:
data['purpose_category'].value_counts()

недвижимость    6351
жилье           4460
автомобиль      4306
образование     4013
свадьба         2323
Name: purpose_category, dtype: int64

Сформируем категории по зарплате:

In [43]:
def income_categorize(row):
    income=row['total_income']
    if income < 25000:
        return 'меньше 25000'
    elif 25000 <= income <50000:
        return 'от 25 тыс. до 50 тыс.'
    elif 50000 <= income < 100000:
        return 'от 50 тыс. до 100 тыс.'
    elif 100000 <= income <200000:
        return 'от 100 тыс. до 200 тыс.'
    elif 200000 <= income <500000:
        return 'от 200 тыс. до 500 тыс.'
    elif 500000 <= income <1000000:
        return 'от 500 тыс. до 1 млн.'
    elif income > 1000000:
        return 'от 1 млн. и выше'
    else:
        return 'NaN'

Проверим функцию:

In [44]:
inc_value = [45643]
inc_column = ['total_income']
inc = pd.Series(data=inc_value, index=inc_column)
print(income_categorize(inc))

от 25 тыс. до 50 тыс.


In [45]:
data['income_groups'] = data.apply(income_categorize, axis=1)
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_groups
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья,жилье,от 200 тыс. до 500 тыс.
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля,автомобиль,от 100 тыс. до 200 тыс.
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья,жилье,от 100 тыс. до 200 тыс.
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование,образование,от 200 тыс. до 500 тыс.
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу,свадьба,от 100 тыс. до 200 тыс.
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.57,покупка жилья,жилье,от 200 тыс. до 500 тыс.
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97,операции с жильем,жилье,от 200 тыс. до 500 тыс.
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823.93,образование,образование,от 100 тыс. до 200 тыс.
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856.83,на проведение свадьбы,свадьба,от 50 тыс. до 100 тыс.
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.94,покупка жилья для семьи,жилье,от 100 тыс. до 200 тыс.


In [46]:
data['income_groups'].value_counts()

от 100 тыс. до 200 тыс.    11924
от 200 тыс. до 500 тыс.     4844
от 50 тыс. до 100 тыс.      4091
от 25 тыс. до 50 тыс.        364
от 500 тыс. до 1 млн.        197
от 1 млн. и выше              25
меньше 25000                   8
Name: income_groups, dtype: int64

### Вывод

Сформированы категории по потребностям кредита, что позволит более обще группировать индивидуальные записи.
* Самое большое количество кредитов берется на действия с недвижимостью
* Меньше всего люди берут займы на свадьбу

Так же мы сформировали категории по зарплате, что позволит выделить группы и определить процент возвращаемых в срок заемных средств.

### Шаг 3. Ответьте на вопросы

#### Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [47]:
def debt_pivot(df, index):
    pivot = df.pivot_table(index=index, values='debt', aggfunc=['count','sum', 'mean'])
    pivot['mean'] = pivot['mean'].mul(100).round(1).astype(str) + '%'
    return pivot.sort_values(by=('mean','debt'), ascending=False)

In [48]:
debt_pivot(data, 'children')

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
4,41,4,9.8%
2,2052,194,9.5%
1,4884,452,9.3%
3,330,27,8.2%
0,14137,1064,7.5%
5,9,0,0.0%


### Вывод

Да, присутствует некоторая зависимость возврата задолженности от количества детей.
* Исходя из показателей процентного соотношения количества должников реже всего возвращают деньги в срок заемщики, у которых большее количество детей.
* Самый высокий процент возврата долгов показали бездетные семьи.
* Результаты по семьям с 5ю детьми не показательны, так как мало данных.

#### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [49]:
debt_pivot(data, 'family_status')

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
не женат / не замужем,2810,274,9.8%
гражданский брак,4150,388,9.3%
женат / замужем,12339,931,7.5%
в разводе,1195,85,7.1%
вдовец / вдова,959,63,6.6%


### Вывод

Некоторая зависимость между семейным положением и возвратом кредита в срок так же наблюдается.
* Самыми неблагонадежными заемщиками оказались холостые клиенты.
* А чаще всего возвращают заемные средства в срок вдовцы/вдовы и клиенты в разводе.

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [50]:
debt_pivot(data,'income_groups')

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
income_groups,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
от 100 тыс. до 200 тыс.,11924,1029,8.6%
от 50 тыс. до 100 тыс.,4091,331,8.1%
от 1 млн. и выше,25,2,8.0%
от 200 тыс. до 500 тыс.,4844,344,7.1%
от 500 тыс. до 1 млн.,197,12,6.1%
от 25 тыс. до 50 тыс.,364,22,6.0%
меньше 25000,8,1,12.5%


### Вывод

* Самой неблагонадежной согласно нашим исследованиям оказывается группа с зарплатой от 100 до 200 тыс. рублей.
* Наоборот примечателен факт что самыми благонадежными оказываются группы с самым скромным достатком и с приличным достатком до 1 млн. руб. в месяц.
* Отдельно отметим группу от 1 млн. и выше - у людей с такой зарплатой отношение к деньгам уже совсем иное.

#### Как разные цели кредита влияют на его возврат в срок?

In [51]:
debt_pivot(data,'purpose_category')

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
автомобиль,4306,403,9.4%
образование,4013,370,9.2%
свадьба,2323,186,8.0%
недвижимость,6351,474,7.5%
жилье,4460,308,6.9%


### Вывод

Да, зависимость присутствует.
* согласно исследованию самые не благонадежные клиенты те, которые берут кредит на автомобиль.
* напротив чаще вовзращают средства в срок кредиты, взятые на операции с жильем.

### Шаг 4. Общий вывод

Самый неблагонадежный заемщик выглядит следующим образом:
* у него 2 и более детей
* не женат/не замужем
* с зарплатой от 100 до 200 тыс. рублей
* который собирается покупать автомобиль или получать образование

Складывается образ успешного алиментщика.

Самый же надежный кредитодержатель выглядит так:
* у него нет детей
* вдовец/вдова или в разводе
* зарабатывает либо меньше 50 тыс. рублей либо от 500 до 1 млн. рублей
* и собирается на заемные средства приобретать жилье

Кажется что это творческий человек (художник, скульптор, музыкант и т.п.)