## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [840]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [841]:
#Выведем первые и последние 15 записей
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [893]:
data.tail(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_type,children_type,total_income_type,type_family_status
21510,2,,28,среднее,1,женат / замужем,0,F,сотрудник,0,142594,приобретение автомобиля,автомобиль,есть дети,доход выше среднего,есть семья
21511,0,-612.569129,29,высшее,0,гражданский брак,1,F,сотрудник,1,140068,покупка жилья для сдачи,жилье,без детей,средний доход,есть семья
21512,0,-165.377752,26,высшее,0,Не женат / не замужем,4,M,компаньон,0,147301,получение дополнительного образования,образование,без детей,доход выше среднего,без семьи
21513,0,-1166.216789,35,среднее,1,женат / замужем,0,F,сотрудник,0,250986,покупка жилья,жилье,без детей,высокий доход,есть семья
21514,0,-280.469996,27,неоконченное высшее,2,Не женат / не замужем,4,M,компаньон,0,355988,строительство недвижимости,недвижимость,без детей,высокий доход,без семьи
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486,заняться образованием,образование,есть дети,средний доход,есть семья
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807,покупка своего жилья,жилье,без детей,высокий доход,есть семья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059,на покупку своего автомобиля,автомобиль,без детей,доход выше среднего,есть семья
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864,сделка с автомобилем,автомобиль,без детей,доход выше среднего,есть семья
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949,покупка коммерческой недвижимости,недвижимость,есть дети,средний доход,без семьи


In [843]:
#Посмотрим наличие дубликатов и пропусков
data.duplicated().sum()

54

In [844]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [845]:
#Просмотрим по отдельности столбцы, чтобы найти какие-либо особенности

In [846]:
unique_children = data['children'].unique()
print(unique_children)

[ 1  0  3  2 -1  4 20  5]


In [847]:
unique_days_employed = data['days_employed'].unique()
print(unique_days_employed)

[-8437.67302776 -4024.80375385 -5623.42261023 ... -2113.3468877
 -3112.4817052  -1984.50758853]


In [848]:
#в 'days_employed' есть отрицательные значения, а положительные значения очень большие для количества дней

In [849]:
data[data['days_employed'] < 0]['days_employed'].count()

15906

In [850]:
unique_dob_years = data['dob_years'].unique()
print(unique_dob_years)

[42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]


In [851]:
#кредиты выдают с 18 лет, а у нас есть вообще нулевые значения в столбце возраст клиента в годах.

In [852]:
unique_gender = data['gender'].unique()
print(unique_gender)

['F' 'M' 'XNA']


In [853]:
#есть неизвестное значение пола человека

In [854]:
unique_family_status = data['family_status'].unique()
print(unique_family_status)

['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']


In [855]:
unique_education = data['education'].unique()
print(unique_education)

['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']


In [856]:
#присутствуют различные регистры в значениях у образования

In [857]:
unique_income_type = data['income_type'].unique()
print(unique_income_type)

['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']


In [858]:
unique_purpose = data['purpose'].unique()
print(unique_purpose)

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']


In [859]:
#проверим есть ли клиенты с уровнем дохода = 0
data[data['total_income'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


### Вывод

- всего для анализа у нас 21 525 записей
- есть 54 дубликата
- есть пропуски в столбцах days_employed и total_income. Скорее всего невозможно рассчитать общий доход, если нету данных о стаже. Но столбец total_income нам нужен для анализа и ответов на поставленные вопросы.
- в столбце children есть значения "-1", скорее всего клиенты не заполнили данные, а также есть значения "20", что может быть ошибкой, но точно сказать невозможно.
- есть отрицательные значения в столбце days_employed и таких значений очень много, можно воспользоваться функцией приведения значений по модулю . days_employed так же имеет тип float64, но хотелось бы иметь дело с днями, поэтому приведем тип столбца к int. В столбце также есть неправдоподобно большие значения стажа. Однако для анализа нам не важен этот столбец.
- есть нулевые значения в столбце dob_years, которые скорее всего появились из-за того, что клиент не указал своих данных. Однако для анализа нам не важен этот столбец.
- есть значения в разном регистре в столбце education.
- есть неизвестное значение 'XNA' в столбце gender. Однако для анализа нам не важен этот столбец.
- столбец purpose содержит разные формулировки одних и тех же целей.

### Шаг 2. Предобработка данных

### Обработка пропусков

In [860]:
#количество пропущенных значений во всех столбцах 
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [861]:
#типы занятости с частотой среди пропущенных значений
data[data['total_income'].isnull()]['income_type'].value_counts(normalize=True)

сотрудник          0.508280
компаньон          0.233671
пенсионер          0.189972
госслужащий        0.067617
предприниматель    0.000460
Name: income_type, dtype: float64

In [862]:
#типы занятости с частотой в общем датасете
data['income_type'].value_counts(normalize=True)

сотрудник          0.516562
компаньон          0.236237
пенсионер          0.179141
госслужащий        0.067782
безработный        0.000093
предприниматель    0.000093
в декрете          0.000046
студент            0.000046
Name: income_type, dtype: float64

In [863]:
#Теперь видно, что пропущенные данные не зависит от 'income_type'. Сравнение частотностей пропусков по 'income_type' схожа с данными в общем датасете.

In [864]:
#находим медиану дней стажа для каждого типа занятости методом median()
#mediana_days_employed = data.groupby('income_type')['days_employed'].median().to_dict()
#mediana_days_employed

In [865]:
import numpy as np
#заполняем все пустые значения соответствующей медианой по days_employed
#def fill_days_employed(row):
#    if np.isnan(row['days_employed']) or row['days_employed'] in (np.nan, None):
#        return mediana_days_employed[row['income_type']]
#    else:
#        return row['days_employed']

#data['days_employed'] = data.apply(fill_days_employed, axis = 1)

In [866]:
#Так как столбец 'days_employed' нам не нужен для анализа и ответа на поставленные вопросы, то мы оставим его в исходном состоянии, но сообщим разработчикам о найденной проблеме

In [867]:
#находим медиану месячного дохода для каждого типа занятости методом median()
mediana_total_income = data.groupby('income_type')['total_income'].median().to_dict()
mediana_total_income

{'безработный': 131339.7516762103,
 'в декрете': 53829.13072905995,
 'госслужащий': 150447.9352830068,
 'компаньон': 172357.95096577113,
 'пенсионер': 118514.48641164352,
 'предприниматель': 499163.1449470857,
 'сотрудник': 142594.39684740017,
 'студент': 98201.62531401133}

In [868]:
#заполняем все пустые значения соответствующей медианой по total_income
def fill_total_income(row):
    if np.isnan(row['total_income']) or row['total_income'] in (np.nan, None):
        return mediana_total_income[row['income_type']]
    else:
        return row['total_income']

data['total_income'] = data.apply(fill_total_income, axis = 1)

In [869]:
#заменяем значения "-1" в столбце 'children'  на "0"
data['children'] = data['children'].replace(-1, 0)

In [870]:
#проверяем количество значений "-1" после изменений
data[data['children'] == -1].count()[0]

0

In [871]:
#заменяем значения "20" в столбце 'children'  на "2", предполагая, что корректное значение "2", а "0" появился в результате ошибки заполнения данных
data['children'] = data['children'].replace(20, 2)

In [872]:
#проверяем количество значений "20" после изменений
data[data['children'] == 20].count()[0]

0

In [873]:
#заменяем в столбце 'dob_years'значения "0" на средние по каждому типу занятости и округляем чтоб сохранить целочисленный тип 
data['dob_years'] = data.groupby('income_type')['dob_years'].transform(lambda x: x.replace(0, int(x.mean())))

In [874]:
#проверяем количество значений "0" после изменений
data[data['dob_years'] == 0].count()[0]

0

In [875]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод

Были обнаружены пропуски данных в столбцах 'total_income' и 'days_employed'. Возможно, пропуски появились потому что их просто не заполнили сами клиенты. Скорее всего невозможно рассчитать общий доход, если нету данных о стаже.
Пропущенные значения в столбце 'total_income' заполнили, рассчитанным для каждого значения income_type (тип занятости) соответствующе Медианой по доходу согласно типу занятости.
Пропущенные значения в столбце 'days_employed' оставили без изменений, так как он нам не нужен для ответа на поставленные вопросы, но необходимо сообщим разработчикам о найденной проблеме.
Некорректные значения в столбцах 'children' и 'dob_years' заменены.

### Замена типа данных

In [876]:
#в колличественном выражении для 'days_employed', дробная часть не значительна и ей можно принебречь, поэтому проведем замену типа данных для 'days_employed' на integer с применением функции модуля к значениям
try:
    data['days_employed'] = data['days_employed'].astype('int').apply(abs)
except: 
    print('При изменении типа данных в столбце days_employed возникли ошибки')

#проведем замену типа данных для 'total_income' на integer
try:
    data['total_income'] = data['total_income'].astype('int')
except: 
    print('При изменении типа данных в столбце total_income возникли ошибки')
    
#Проверим типы данных методом info()
data.info()

При изменении типа данных в столбце days_employed возникли ошибки
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


### Вывод

При замене типа данных не произойдет какого-либо существенного искажения данных, которое бы повлияло на итоговый анализ. Дополнительно избавились от отрицательных значений.
Использовали метод astype, а не to_numeric, т.к. он служит для конвертации строк и приводит их к числам с плавающей точкой.
Использовалась конструкция try-except для выявления ошибок при преобразовании типа.

### Обработка дубликатов

In [877]:
#найдем количество дубликатов
data.duplicated().sum()

54

In [878]:
#удаляем дубликаты 
data = data.drop_duplicates()

In [879]:
#проверим количество дубликатов после обработки
print(data.duplicated().sum())

0


### Вывод

Проверили данные на наличие дубликатов и избавились от них, чтобы они не повлияли на результаты анализа. Дубликаты могли появится из-за того что один и тотже клиент банка мог брать кредиты несколько раз или потому что датасет был сформирован из нескольких различных источников.

### Лемматизация

In [880]:
#еще раз посмотрим какие есть значения в 'purpose' и их кол-во
data['purpose'].value_counts()

свадьба                                   793
на проведение свадьбы                     773
сыграть свадьбу                           769
операции с недвижимостью                  675
покупка коммерческой недвижимости         662
операции с жильем                         652
покупка жилья для сдачи                   652
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          625
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

In [881]:
from pymystem3 import Mystem
from collections import Counter
m = Mystem()

#лемматизируем полученный выше список
purposes = []
for element in data['purpose']:
    lemma = m.lemmatize(element)
    purposes.extend(lemma)

#фильтруем лишнее, сортируем и получаем список уникальных лемм и их кол-во
purposes = filter(lambda f: f not in [' ', '\n', 'с', 'со', 'на', 'для'], purposes)
unique_lemmas = sorted(Counter(purposes).items(), key = lambda pair: pair[1], reverse=True)        
unique_lemmas

[('недвижимость', 6353),
 ('покупка', 5900),
 ('жилье', 4461),
 ('автомобиль', 4308),
 ('образование', 4014),
 ('операция', 2604),
 ('свадьба', 2335),
 ('свой', 2231),
 ('строительство', 1879),
 ('высокий', 1374),
 ('получение', 1315),
 ('коммерческий', 1312),
 ('жилой', 1231),
 ('сделка', 941),
 ('дополнительный', 907),
 ('заниматься', 904),
 ('проведение', 773),
 ('сыграть', 769),
 ('сдача', 652),
 ('семья', 638),
 ('собственный', 635),
 ('ремонт', 607),
 ('подержанный', 486),
 ('подержать', 478),
 ('приобретение', 461),
 ('профильный', 436)]

In [882]:
#Для лемматизации определяем категории, который можно увидеть просмотрев значения в unique_lemmas
purpose_category = [
    'недвижимость',
    'жилье',
    'автомобиль',
    'образование',
    'свадьба'
]

In [883]:
#используем функцию, которую будем вызывать при добавлении нового стобца
def lemmatize_purpose(row):
    lemmas = m.lemmatize(row)
    for lemma in lemmas:
        for category in purpose_category:
            if category in lemma:
                return category

#заисываем в новый столбец лемматизированные данные по целям получения кредита
data['purpose_type'] = data['purpose'].apply(lemmatize_purpose)

### Вывод

Провели лемматизацию 'purpose', убрав лишнее и отсортировав.Получили список уникальных лемм с количеством, проанализировали и выделил 5 категории целей получения кредита, которые мы записали в отдельный столбец для дальнейшего анализа.

### Категоризация данных

In [884]:
#используя функцию, категоризируем данные по количеству детей
def children_type(children):
    if children < 1:
        return 'без детей'
    elif children <3:
        return 'есть дети'
    else:
        return 'многодетный'

#новые категории записываем в отдельный столбец для использования в дальнейшем анализе
data['children_type'] = data['children'].apply(children_type)

In [885]:
#используем метод describe для просмотра некоторых основных статистических данных, чтобы определить как разбивать на части 'total_income' для категоризации 
data['total_income'].describe() 

count    2.147100e+04
mean     1.652954e+05
std      9.815346e+04
min      2.066700e+04
25%      1.076545e+05
50%      1.425940e+05
75%      1.957675e+05
max      2.265604e+06
Name: total_income, dtype: float64

In [886]:
#используя функцию, категоризируем данные по доходу, используя полученную информацию методом describe выше
def total_income_type(income):
    if income < 107654:
        return 'низкий доход'
    elif income <142594:
        return 'средний доход'
    elif income <195767:
        return 'доход выше среднего'
    else:
        return 'высокий доход'

#новые категории записываем в отдельный столбец для использования в дальнейшем анализе
data['total_income_type'] = data['total_income'].apply(total_income_type)

In [887]:
#используя функцию, категоризируем данные по доходу, оценочные цифры брал из https://www.rbc.ru/economics/20/07/2019/5d317d739a7947d7fa1672a3
def type_family_status(status):
    if (status == 'женат / замужем') or (status == 'гражданский брак'):
        return 'есть семья'
    else:
        return 'без семьи'

#новые категории записываем в отдельный столбец для использования в дальнейшем анализе
data['type_family_status'] = data['family_status'].apply(type_family_status)

In [888]:
#проверяем датасет с добавленными столбцами
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21471 entries, 0 to 21524
Data columns (total 16 columns):
children              21471 non-null int64
days_employed         19351 non-null float64
dob_years             21471 non-null int64
education             21471 non-null object
education_id          21471 non-null int64
family_status         21471 non-null object
family_status_id      21471 non-null int64
gender                21471 non-null object
income_type           21471 non-null object
debt                  21471 non-null int64
total_income          21471 non-null int64
purpose               21471 non-null object
purpose_type          21471 non-null object
children_type         21471 non-null object
total_income_type     21471 non-null object
type_family_status    21471 non-null object
dtypes: float64(1), int64(6), object(9)
memory usage: 2.8+ MB


### Вывод

Для анализа и ответа на вопросы нам необходимо было разбить датасет на определенные сегменты, поэтому мы прибегли к категоризации.

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [889]:
data_children = data.pivot_table(index=['children_type'], columns = 'debt', values = 'children', aggfunc = 'count')
data_children['% должников'] = (data_children[1]/(data_children[1]+data_children[0]))*100
data_children

debt,0,1,% должников
children_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
без детей,13090,1064,7.51731
есть дети,6291,646,9.312383
многодетный,349,31,8.157895


### Вывод

Те, у кого нету детей, чаще возвращают кредиты на 1,8%, чем те у кого есть дети. При этом многодетные возвращают кредиты чаще, чем семьи с кол-вом детей меньше 3 более чем на 1,1%.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [890]:
data_family = data.pivot_table(index=['type_family_status'], columns = 'debt', values = 'family_status', aggfunc = 'count')
data_family['%'] = (data_family[1]/(data_family[1]+data_family[0]))*100
data_family

debt,0,1,%
type_family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
без семьи,4542,422,8.501209
есть семья,15188,1319,7.990549


### Вывод

Клиенты, у которых нету семьи на 0,5% чаще имеют просрочку по кредиту.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [891]:
data_income = data.pivot_table(index=['total_income_type'], columns = 'debt', values = 'total_income', aggfunc = 'count' )
data_income['%'] = (data_income[1]/(data_income[1]+data_income[0]))*100
data_income

debt,0,1,%
total_income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
высокий доход,4985,383,7.134873
доход выше среднего,5776,546,8.636507
низкий доход,4941,427,7.954545
средний доход,4028,385,8.724224


### Вывод

Люди с высоким доходом чаще всего возвращают кредит более чем на 1,5%, в отличие от тех, у кого средний доход и доход выше среднего. При этом люди с низким доходом тоже возвращают кредиты чаще на 0,6% чем те, у кого средний доход и доход выше среднего.

- Как разные цели кредита влияют на его возврат в срок?

In [892]:
data_purpose = data.pivot_table(index=['purpose_type'], columns='debt', values='purpose', aggfunc='count')
data_purpose['%'] = (data_purpose[1]/(data_purpose[1]+data_purpose[0]))*100
data_purpose

debt,0,1,%
purpose_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3905,403,9.354689
жилье,4153,308,6.904282
недвижимость,5879,474,7.461042
образование,3644,370,9.217738
свадьба,2149,186,7.965739


### Вывод

Кредиты на жилье и недвижимость наиболее востребованы среди клиентов, однако и процент невозврата у них самый маленький. А клиенты, которые брали кредиты на автомобиль и образование, в большинстве и имели задолженность по возврату денег более чем на 2,3% от тех кто брал кредит на жилье и более чем на 1,7% от тех кто брал кредит на недвижимость.

### Шаг 4. Общий вывод

Семеное положение и количество детей влияет на факт погашения кредита в срок.
Безопаснее всего выдавать кредиты на жилье, недвижимость и свадьбу, клиентам у которых нету детей, но у которых есть семья (женат / замужем' или 'гражданский брак') и имеющим высокий доход (от 195767) или низкий доход (до 107654)

---