## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Цель работы выяснить, как влияет семейное положение и наличие детей на своевременность погашения кредита.

### Описание данных
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

### Шаг 1. Открыть файл с данными и изучить общую информацию. 

In [1]:
import pandas as pd
clients = pd.read_csv('/datasets/data.csv')
print(clients.info())

clients.head(40)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


### Вывод

Столбцы days_employed и total_income имеют тип float, их лучше перевести в int для удобства представления и большей информативности. Кроме того рабочий стаж (days_employed) в днях стоит перевести в годы для наглядности.Также в глаза бросаются отрицательные значения стажа. Так как такие значения присутствуют в большинстве строк, то скорее всего так получилось из-за метода вычисления этого параметра. Стоит обратить внимание на этот момент при формировании данных.
Кроме этого, наблюдается значительное недостоверных значений. Выбросы в столбце стаж (значения в районе 300 000) в подавляющем большинстве находятся в диапазоне старше 50 лет (3300 записей против 200 у лиц младше 50). Налицо какая-то ошибка заполнения данных именно в диапазоне старше 50 лет, на это нужно обратить внимание. 
Имеются пропущенные значения в столбцах days_employed и total_income.
В столбце education есть 'среднее', 'СРЕДНЕЕ' и 'Среднее'. Стоит проверить столбцы со строковыми значениями на наличие дубликатов с учетом регистра. 
В столбце purpose есть группы значений, явно означающих одно и то же, например -  "строительство собственной недвижимости", "строительство жилой недвижимости", "строительство недвижимости". Так же есть разночтения в записи покупки жилой недвижимости и автомобиля. То есть это столбец нужно будет лемматизировать для точной группировки по целям получения кредита.

### Шаг 2. Предобработка данных

### Обработка пропусков

In [2]:
print(clients.isna().sum())
#print(clients['education_id'].value_counts())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


Пропущенные значения наблюдаются всегда одновременно в двух столбцах - стаж и доход. По видимому, эту информацию не указывают.
Таких записей - около 10% от всего массива. Это довольно много. Посмотрим, возможно эти данные отсутствуют у какой-то определенной категории, например пенсионеров.

Как видим, наличие пропусков в столбцах дохода и стажа не зависят от занятости, возраста или пола. Заполним NaN и выбросы в стаже средним значением для данной возрастной группы (<30, 30-40, 40-50, 50-60, >60), для дохода возьмем медиану, но для него, кроме возраста, нужно еще учитывать пол и образование.


In [3]:
import math
#средний стаж, распределенный по возрасту
mean_employed_under30 = clients[(clients['dob_years']<=30)& (clients['days_employed'] < 20000)]['days_employed'].mean()
mean_employed_30_40   = clients[(clients['dob_years']>30) & (clients['dob_years']<=40)& (clients['days_employed'] < 20000)]['days_employed'].mean()
mean_employed_40_50   = clients[(clients['dob_years']>40) & (clients['dob_years']<=50) & (clients['days_employed'] < 20000)]['days_employed'].mean()
mean_employed_50_60   = clients[(clients['dob_years']>50) & (clients['dob_years']<=60) & (clients['days_employed'] < 20000)]['days_employed'].mean()
mean_employed_over60  = clients[(clients['dob_years']>60)  & (clients['days_employed'] < 20000)]['days_employed'].mean()

def experience(row):
#Возвращает среднее по стажу соответствующей возрастной группы (шаг в 10 лет), если текущее значение 
#стажа NaN или есть выброс вверх (>20 000)

    age = row['dob_years']
    days_employed = row['days_employed']

    if math.isnan(days_employed) or (days_employed > 20000):
        if age <= 30:
            return mean_employed_under30
        if 30 < age <= 40:
            return mean_employed_30_40
        if 40 < age <= 50:
            return mean_employed_40_50
        if 50 < age <= 60:
            return mean_employed_50_60
        
        return mean_employed_over60
        
    return days_employed #если не NaN оставляем старое значение
 
def salary(row):
    
#Возвращает медиану по зп соответствующей возрастной группы (шаг в 10 лет), если текущее значение NaN 

    age = row['dob_years']
    total_income = row['total_income']
    sex = row['gender']
    education = row['education_id']
    if math.isnan(total_income):
        if age <= 30:
            return clients[(clients['dob_years'] <= 30) & (clients['gender'] == sex) & (clients['education_id'] == education)]['total_income'].median()
        if 30 < age <= 40:
            return clients[(clients['dob_years'] <= 40) & (clients['dob_years'] > 30) & (clients['gender'] == sex) & (clients['education_id'] == education)]['total_income'].median()
        if 40 < age <= 50:
            return clients[(clients['dob_years'] <= 50) & (clients['dob_years'] > 40) & (clients['gender'] == sex) & (clients['education_id'] == education)]['total_income'].median()
        if 50 < age <= 60:
            return clients[(clients['dob_years'] <= 50) & (clients['dob_years'] > 40) & (clients['gender'] == sex) & (clients['education_id'] == education)]['total_income'].median()
        
        return clients[(clients['dob_years'] > 60) & (clients['gender'] == sex) & (clients['education_id'] == education)]['total_income'].median()
        
    return total_income #если не NaN оставляем старое значение
        

clients['experience'] = clients.apply(experience, axis=1)
clients['income'] = clients.apply(salary, axis=1)

print(clients.head(15))

    children  days_employed  dob_years            education  education_id  \
0          1   -8437.673028         42               высшее             0   
1          1   -4024.803754         36              среднее             1   
2          0   -5623.422610         33              Среднее             1   
3          3   -4124.747207         32              среднее             1   
4          0  340266.072047         53              среднее             1   
5          0    -926.185831         27               высшее             0   
6          0   -2879.202052         43               высшее             0   
7          0    -152.779569         50              СРЕДНЕЕ             1   
8          2   -6929.865299         35               ВЫСШЕЕ             0   
9          0   -2188.756445         41              среднее             1   
10         2   -4171.483647         36               высшее             0   
11         0    -792.701887         40              среднее             1   

### Вывод

Пропущенные значения наблюдаются в строках всегда одновременно в двух столбцах - стаж и доход. По видимому, эту информацию не указывают при заполнении. Таких записей - около 10% от всего массива. 
Кроме этого наблюдаются странные значения (около 300 000) в графе стаж. При этом такие строки в подавляющем большинстве относятся к клиентам старше группы - у клиентов в возрасте 50-60 лет процент таких записей 41%, а у клиентов старше 60 - уже почти 80%! Налицо какая-то ошибка заполнения данных именно в диапазоне старше 50 лет, на это нужно обратить внимание. 
С помощью функции apply() добавлены два новых столбца для стажа(experience) и дохода(income), в которых добавлены значения взамен недостоверных. Для стажа это среднее значение по соответствующей возрастной группе (с шагом 10 лет). Заменены NaN и недостоверные значения ( >20 000).
Для дохода, кроме возраста, учтены пол и уровень образования. Вместо средних взяты медианные значения соответствующих групп.

### Замена типа данных

In [4]:
WORKDAYS_PER_YEAR = 247

clients['experience'] = (round(abs(clients['experience'])/WORKDAYS_PER_YEAR)).astype('int')
clients['income'] = round(clients['income']).astype('int')

print(clients.head())
print(clients.info())

   children  days_employed  dob_years education  education_id  \
0         1   -8437.673028         42    высшее             0   
1         1   -4024.803754         36   среднее             1   
2         0   -5623.422610         33   Среднее             1   
3         3   -4124.747207         32   среднее             1   
4         0  340266.072047         53   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0      M   сотрудник     0  145885.952297   
3   женат / замужем                 0      M   сотрудник     0  267628.550329   
4  гражданский брак                 1      F   пенсионер     0  158616.077870   

                      purpose  experience  income  
0               покупка жилья          34  253876  
1     приобретение

### Вывод

В нашем DataFrame два столбца имеют тип float - стаж и доход. Для удобства обработки переводим их в int с помощью функции astype().
Стаж указан в отрицательных значения. По видимому, его получают вычитанием дат друг из друга. Скорее всего следует поменять местами аргументы вычисления. 
Чтобы не потерять точность данных, сначала значения поделены на количество рабочих дней в году (247), затем применена функция abs() для перевода в положительные значения и, наконец, функция округления round()

### Обработка дубликатов

In [5]:
print(clients.duplicated().sum())
clients = clients.drop_duplicates().reset_index(drop=True)
print(clients.duplicated().sum())
print(clients.info())

54
0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21471 entries, 0 to 21470
Data columns (total 14 columns):
children            21471 non-null int64
days_employed       19351 non-null float64
dob_years           21471 non-null int64
education           21471 non-null object
education_id        21471 non-null int64
family_status       21471 non-null object
family_status_id    21471 non-null int64
gender              21471 non-null object
income_type         21471 non-null object
debt                21471 non-null int64
total_income        19351 non-null float64
purpose             21471 non-null object
experience          21471 non-null int64
income              21471 non-null int64
dtypes: float64(2), int64(7), object(5)
memory usage: 2.3+ MB
None


In [6]:
print(clients['education'].value_counts())


среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64


In [7]:
clients['education'] = clients['education'].str.lower()
print(clients['education'].value_counts())

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64


In [8]:
print(clients.duplicated().sum())
clients = clients.drop_duplicates().reset_index(drop=True)
print(clients.duplicated().sum())
print(clients.info())

17
0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 14 columns):
children            21454 non-null int64
days_employed       19351 non-null float64
dob_years           21454 non-null int64
education           21454 non-null object
education_id        21454 non-null int64
family_status       21454 non-null object
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        19351 non-null float64
purpose             21454 non-null object
experience          21454 non-null int64
income              21454 non-null int64
dtypes: float64(2), int64(7), object(5)
memory usage: 2.3+ MB
None


### Вывод

Обнаружено и обработано 54 полных дубликата.
Значения столбца education приведены к нижнему регистру с помощью функции str.lower().
Причина возникновения - различное написание при заполнении данных. Целесообразно поле для ввода значения образования заменить выпадающим списком.

### Лемматизация

In [9]:
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

print(clients['purpose'].value_counts())

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Объединим всё это разнообразие в следующие категории:
свадьба
покупка жилья
коммерческая недвижимость
строительство
ремонт
автомобиль
образование
c помощью функции apply() добавлен столбец purpose_categories с новыми категорями целей кредита.

In [10]:
def purpose_categories(row):
    
    lemmas = m.lemmatize(row['purpose'])
    if 'свадьба' in lemmas:
#        print(clients['purpose'])
        return 'свадьба'
    if 'автомобиль' in lemmas:
        return 'автомобиль'
    if 'образование' in lemmas:
        return 'образование'
    if 'ремонт' in lemmas:
        return 'ремонт'
    if ('коммерческий' in lemmas) & ('недвижимость' in lemmas):
        return 'коммерческая недвижимость'
    if 'строительство' in lemmas:
        return 'строительство'
    return 'покупка жилья'


clients['purpose_categories'] = clients.apply(purpose_categories, axis=1) 
print(clients['purpose_categories'].value_counts())

покупка жилья                7015
автомобиль                   4306
образование                  4013
свадьба                      2324
строительство                1878
коммерческая недвижимость    1311
ремонт                        607
Name: purpose_categories, dtype: int64


### Вывод

В столбце purpose есть значения, явно означающих одно и то же, например -  "строительство собственной недвижимости", "строительство жилой недвижимости", "строительство недвижимости" и т.д. 
Значения столбца были лемматизированы для дальнейшего поиска ключевых млов и сортировки по новым категоряим в столбце purpose_categories

### Категоризация данных

In [11]:
clients_dict = clients[['children','family_status_id', 'income', 'debt' , 'purpose_categories']]
print(clients_dict.head(20))

    children  family_status_id  income  debt         purpose_categories
0          1                 0  253876     0              покупка жилья
1          1                 0  112080     0                 автомобиль
2          0                 0  145886     0              покупка жилья
3          3                 0  267629     0                образование
4          0                 1  158616     0                    свадьба
5          0                 1  255764     0              покупка жилья
6          0                 0  240526     0              покупка жилья
7          0                 0  135824     0                образование
8          2                 1   95857     0                    свадьба
9          0                 0  144426     0              покупка жилья
10         2                 0  113943     0              покупка жилья
11         0                 0   77069     0  коммерческая недвижимость
12         0                 1  123719     0                    

### Вывод

Выделен словарь с категориями, которые потребуются для оценки надежности заемщиков.
Кроме этого, ниже категоризация применена для разбиения клиентов по уровню дохода.

### Шаг 3. Ответы на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [12]:
parents_wtht_debt = clients_dict[(clients_dict['children'] > 0) & (clients_dict['debt'] == 0)]['children'].count()
parents_total = clients_dict[(clients_dict['children'] > 0)]['children'].count()

childfree_wtht_debt = clients_dict[(clients_dict['children'] == 0) & (clients_dict['debt'] == 0)]['children'].count()
childfree_total = clients_dict[(clients_dict['children'] == 0)]['children'].count()
print('Заемщики с детьми, вернувшие кредит в срок - {:.2%}'.format(parents_wtht_debt/parents_total))
print('Заемщики без детей, вернувшие кредит в срок - {:.2%}'.format(childfree_wtht_debt/childfree_total))

Заемщики с детьми, вернувшие кредит в срок - 90.75%
Заемщики без детей, вернувшие кредит в срок - 92.46%


### Вывод

Наличие детей незначительно повышает вероятность задержки погашения кредита.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [13]:
families_wtht_debt = clients_dict[(clients_dict['family_status_id'] < 2) & (clients_dict['debt'] == 0)]['family_status_id'].count()
families_total = clients_dict[(clients_dict['family_status_id'] < 2)]['family_status_id'].count()

loners_wtht_debt = clients_dict[(clients_dict['family_status_id'] > 1) & (clients_dict['debt'] == 0)]['family_status_id'].count()
loners_total = clients_dict[(clients_dict['family_status_id'] > 1)]['family_status_id'].count()
print('Семейные заемщики, вернувшие кредит в срок - {:.2%}'.format(families_wtht_debt/families_total))
print('Одинокие заемщики, вернувшие кредит в срок - {:.2%}'.format(loners_wtht_debt/loners_total))

Семейные заемщики, вернувшие кредит в срок - 92.00%
Одинокие заемщики, вернувшие кредит в срок - 91.50%


### Вывод

Наличие семьи (зарегистрированный брак или гражданский) понижает вероятность задержки погашения кредита. Любопытно что процент вернувших в зарегистриролванном браке выше, чем в гражданском.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [14]:
print(clients_dict['income'].median())
print(clients_dict['income'].max())

144849.5
2265604


In [15]:
def income_group(row):
    income = row['income']
    if income <= 100000:
        return 'низкий'
    if income < 200000:
        return 'средний'
    return 'высокий'

clients_dict['income_level'] = clients.apply(income_group, axis=1)

low_income_wtht_debt = clients_dict[(clients_dict['income_level'] == 'низкий') & (clients_dict['debt'] == 0)]['income_level'].count()
low_income_total = clients_dict[(clients_dict['income_level'] == 'низкий')]['family_status_id'].count()
print('Заемщики с низким доходом, вернувшие кредит в срок - {:.2%}'.format(low_income_wtht_debt/low_income_total))

aver_income_wtht_debt = clients_dict[(clients_dict['income_level'] == 'средний') & (clients_dict['debt'] == 0)]['income_level'].count()
aver_income_total = clients_dict[(clients_dict['income_level'] == 'средний')]['family_status_id'].count()
print('Заемщики со средним доходом, вернувшие кредит в срок - {:.2%}'.format(aver_income_wtht_debt/aver_income_total))

high_income_wtht_debt = clients_dict[(clients_dict['income_level'] == 'высокий') & (clients_dict['debt'] == 0)]['income_level'].count()
high_income_total = clients_dict[(clients_dict['income_level'] == 'высокий')]['income_level'].count()
print('Заемщики с высоким доходом, вернувшие кредит в срок - {:.2%}'.format(high_income_wtht_debt/high_income_total))
     

Заемщики с низким доходом, вернувшие кредит в срок - 92.08%
Заемщики со средним доходом, вернувшие кредит в срок - 91.31%
Заемщики с высоким доходом, вернувшие кредит в срок - 93.02%


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if __name__ == '__main__':


In [16]:
income_ = pd.cut(clients_dict['income'], [0, 100000, 200000, 2265604])
clients_dict.pivot_table('debt', columns=income_) 

income,"(0, 100000]","(100000, 200000]","(200000, 2265604]"
debt,0.07923,0.086897,0.069781


### Вывод

Чаще всего возвращают заем в срок заемщики с высоким уровнем дохода, затем идут заемщики с низким уровнем, реже всего возвращают заем в срок аемщики со средним уровнем дохода.

- Как разные цели кредита влияют на его возврат в срок?

In [17]:
house_wtht_debt = clients_dict[(clients_dict['purpose_categories'] == 'покупка жилья') & (clients_dict['debt'] == 0)]['purpose_categories'].count()
house_income_total = clients_dict[(clients_dict['purpose_categories'] == 'покупка жилья')]['purpose_categories'].count()
print('Заемщики с кредитом на жилье, вернувшие кредит в срок - {:.2%}'.format(house_wtht_debt/house_income_total))

car_wtht_debt = clients_dict[(clients_dict['purpose_categories'] == 'автомобиль') & (clients_dict['debt'] == 0)]['purpose_categories'].count()
car_income_total = clients_dict[(clients_dict['purpose_categories'] == 'автомобиль')]['purpose_categories'].count()
print('Заемщики с кредитом на автомобиль, вернувшие кредит в срок - {:.2%}'.format(car_wtht_debt/car_income_total))

commerce_wtht_debt = clients_dict[(clients_dict['purpose_categories'] == 'коммерческая недвижимость') & (clients_dict['debt'] == 0)]['purpose_categories'].count()
commerce_income_total = clients_dict[(clients_dict['purpose_categories'] == 'коммерческая недвижимость')]['purpose_categories'].count()
print('Заемщики с кредитом на коммерческую недвижимость, вернувшие кредит в срок - {:.2%}'.format(commerce_wtht_debt/commerce_income_total))

education_wtht_debt = clients_dict[(clients_dict['purpose_categories'] == 'образование') & (clients_dict['debt'] == 0)]['purpose_categories'].count()
education_income_total = clients_dict[(clients_dict['purpose_categories'] == 'образование')]['purpose_categories'].count()
print('Заемщики с кредитом на образование, вернувшие кредит в срок - {:.2%}'.format(education_wtht_debt/education_income_total))

wedding_wtht_debt = clients_dict[(clients_dict['purpose_categories'] == 'свадьба') & (clients_dict['debt'] == 0)]['purpose_categories'].count()
wedding_income_total = clients_dict[(clients_dict['purpose_categories'] == 'свадьба')]['purpose_categories'].count()
print('Заемщики с кредитом на свадьбу, вернувшие кредит в срок - {:.2%}'.format(wedding_wtht_debt/wedding_income_total))

construction_wtht_debt = clients_dict[(clients_dict['purpose_categories'] == 'строительство') & (clients_dict['debt'] == 0)]['purpose_categories'].count()
construction_income_total = clients_dict[(clients_dict['purpose_categories'] == 'строительство')]['purpose_categories'].count()
print('Заемщики с кредитом на свадьбу, вернувшие кредит в срок - {:.2%}'.format(construction_wtht_debt/construction_income_total))

repair_wtht_debt = clients_dict[(clients_dict['purpose_categories'] == 'ремонт') & (clients_dict['debt'] == 0)]['purpose_categories'].count()
repair_income_total = clients_dict[(clients_dict['purpose_categories'] == 'ремонт')]['purpose_categories'].count()
print('Заемщики с кредитом на ремонт, вернувшие кредит в срок - {:.2%}'.format(repair_wtht_debt/repair_income_total))


Заемщики с кредитом на жилье, вернувшие кредит в срок - 92.82%
Заемщики с кредитом на автомобиль, вернувшие кредит в срок - 90.64%
Заемщики с кредитом на коммерческую недвижимость, вернувшие кредит в срок - 92.45%
Заемщики с кредитом на образование, вернувшие кредит в срок - 90.78%
Заемщики с кредитом на свадьбу, вернувшие кредит в срок - 92.00%
Заемщики с кредитом на свадьбу, вернувшие кредит в срок - 92.33%
Заемщики с кредитом на ремонт, вернувшие кредит в срок - 94.23%


In [18]:
child_quant = pd.cut(clients_dict['children'], [0, 1, 20])
#print(clients_dict.info())
#titanic.pivot_table('survived', ['sex', age], 'class')
clients_dict.pivot_table('debt', columns='purpose_categories')  #index='family_status_id', columns='purpose_categories', aggfunc='sum'[income_],
#clients_dict.pivot_table('debt',[child_quant], columns='purpose_categories')

purpose_categories,автомобиль,коммерческая недвижимость,образование,покупка жилья,ремонт,свадьба,строительство
debt,0.09359,0.075515,0.0922,0.071846,0.057661,0.080034,0.076677



### Вывод

Самый высокий уровень возарата заемов - на ремонт, самый низкий - на автомобиль и образование.

### Шаг 4. Общий вывод

Самый высокий шанс на возврат кредита вовремя имеет семейный бездетный заемщик с высокими доходами, берущий кредит на покупку жилья.
Самый низкий - одинокий, с детьми, со средним уровнем дохода, берущий кредит на покупку автомобиля.

Заемщики с детьми, вернувшие кредит в срок - 90.75%
Заемщики без детей, вернувшие кредит в срок - 92.46%

Семейные заемщики, вернувшие кредит в срок - 92.01%
Одинокие заемщики, вернувшие кредит в срок - 91.50%

Заемщики с низким доходом, вернувшие кредит в срок - 92.08%
Заемщики со средним доходом, вернувшие кредит в срок - 91.32%
Заемщики с высоким доходом, вернувшие кредит в срок - 93.02%

Заемщики с кредитом на жилье, вернувшие кредит в срок - 92.82%
Заемщики с кредитом на автомобиль, вернувшие кредит в срок - 90.65%
Заемщики с кредитом на коммерческую недвижимость, вернувшие кредит в срок - 92.45%
Заемщики с кредитом на образование, вернувшие кредит в срок - 90.78%
Заемщики с кредитом на свадьбу, вернувшие кредит в срок - 92.03%
Заемщики с кредитом на свадьбу, вернувшие кредит в срок - 92.34%
Заемщики с кредитом на ремонт, вернувшие кредит в срок - 94.23%

По итогам работы можно выдвинуть несколько замечаний к подговке данных:
Нужно исправить формулу вычисления рабочего стажа, так, чтобы результатом были положительны. Так же, целесообразно сразу пересчитывать стаж в годы, это гораздо более наглядно. А также нужно обратить внимание на аномальные значения для стажа (около 300 000) для клиентов старше 50 лет. К сожалению, мне не удалось определить причину этих ошибок.
Нужно заменить поле для ввода образования выбором из выпадающего списка с вариантами.
То же самое можо сделать и с заполнением поля цели заема.
