# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Шаг 1. Откройте файл с данными и изучите общую информацию

In [1]:
import pandas as pd
from pymystem3 import Mystem
m = Mystem()
import math

In [2]:
df = pd.read_csv('/datasets/data.csv')
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод:**

- в датафрейме 21525 строки, 12 колонок
- числовые данные имеют тип int64 и float64, строчные object
- в данных есть пропуски, а именно в колонках: трудовой стаж и ежемесячный доход
- в колонке трудовой стаж есть отрицательные числа

## Шаг 2. Предобработка данных

### Обработка пропусков

In [4]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Количесво пропусков в колонках *days_employed* и *total_income* одинаковое.

В этих колонках представлен числовой тип данных *float64*

In [5]:
len(df[(df.days_employed.isna()) & (df.total_income.isna())])

2174

Длинна среза совпадает с количеством пропусков в колонках *days_employed*, *total_income*, значит пропуски взаимосвязаны.

Может быть, что если клиент не указал стаж работы, то и средняя зарплата не запрашивается.

2174 строк это примерно 10% данных, поэтому удалять их нельзя, теряется большой обьем данных; заполнять 0 тоже не желательно, это может сильно повлиять на дольшейшие показатели. Думаю стоить заполнить медианой или средним числом.

In [6]:
print(df['days_employed'].min())
df['days_employed'].max()

-18388.949900568383


401755.40047533

In [7]:
print(df['total_income'].min())
df['total_income'].max()

20667.26379327158


2265604.028722744

Общий трудовой стаж: 
- минимальное значение -18388 дня, стаж не может быть отрицательным.
- максимальное 401755 дней - это более 1000 лет стажа. Возможно, эти данные собирались не в днях а в часах.

In [8]:
# Среднее количество дней, за которое Земля делает полный оборот вокруг Солнца - это 365,2425 суток.
401755.40047533 / 24 / 365.2425

45.83203858570333

Получилось примерно 45 лет, это уже больше похоже на праду. Переведу все аномально большие значения в дни, то есть поделю на 24.

Предположу, что максимально человек может проработать 50 лет.

Буду менять все значения, которые больше 50 * 365.2425.

In [9]:
len(df.loc[df['days_employed'] >= 50 * 365.2425])

3445

In [10]:
def days_employed_in_days(row):
    '''Если число row больше (50 * 365.2425), то оно делится на 24 и получается количество дней'''
    if row >= (50 * 365.2425):
        return row / 24
    return row

In [11]:
df['days_employed'] = df['days_employed'].apply(days_employed_in_days)

В колонке трудовой стаж встречаются отрицательные числа, явно это ошибка, так как стаж не может быть меньше 0. Нужно это исправить

In [12]:
df['days_employed'] = abs(df['days_employed'])

In [13]:
print(df['days_employed'].min())
df['days_employed'].max()

24.14163324048118


18388.949900568383

In [14]:
df['days_employed'].max() / 365.2425

50.347234783926794

Получилось, что максимум клиент из этого датасета проработал 50 с небольшим лет

Клиентов можно разделить на категории по возрасту. 

Дальше в каждой категории найти средний стаж работы.

Потом заполню пропуски в колонке *days_employed* средним значением по трудовому стажу, в зависимости от категории по возрасту.

В колонке *dob_years* (возраст) есть 0.

In [15]:
len(df.loc[(df['dob_years'] == 0) & (df.days_employed.isna())])

10

In [16]:
df.loc[(df['dob_years'] == 0) & (df.days_employed.isna())].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
1890,0,,0,высшее,0,Не женат / не замужем,4,F,сотрудник,0,,жилье
2284,0,,0,среднее,1,вдовец / вдова,2,F,пенсионер,0,,недвижимость
4064,1,,0,среднее,1,гражданский брак,1,M,компаньон,0,,ремонт жилью
5014,0,,0,среднее,1,женат / замужем,0,F,компаньон,0,,покупка недвижимости
6411,0,,0,высшее,0,гражданский брак,1,F,пенсионер,0,,свадьба


Есть 10 строк где не указан возраст, стаж работы, зарплата. У этих клиентов укажу минимальный стаж работы из датасета.

Категории клиентов по возрасту:
- 0 - возраст равен 0
- 1 - 18..20
- 2 - 20..30
- 3 - 30..40
- 4 - 40..50
- 5 - 50..75

In [17]:
def age_category(row):
    if row == 0:
        return 0
    if 18 <= row < 20:
        return 1
    if 20 <= row < 30:
        return 2
    if 30 <= row < 40:
        return 3
    if 40 <= row < 50:
        return 4
    if 50 <= row:
        return 5

In [18]:
df['dob_years_category'] = df['dob_years'].apply(age_category)

In [19]:
# Проверю как заполнилась колонкаdob_years_category
df['dob_years_category'].value_counts()

5    7196
3    5674
4    5371
2    3169
0     101
1      14
Name: dob_years_category, dtype: int64

Теперь в каждой категории возраста определяю средний стаж работы.

In [20]:
df.groupby('dob_years_category')['days_employed'].mean()

dob_years_category
0    4611.266086
1     633.678086
2    1246.231977
3    2103.700591
4    3065.967424
5    9365.134544
Name: days_employed, dtype: float64

Видно, что категории 0 клиенты в среднем проработали больше 12 лет.

In [21]:
def work_experience(row):
    '''Если ячейка в колонке days_employed не пустая(не равна NaN), 
    то выводиться певоначальное значение days_employed.
    Иначе выбирается среднее значение трудового стажа в зависимости от категории.
    Есть у клиента не указан возраст, стаж работы, то выводится минимальный стаж работы из датасета.'''
    if math.isnan(row['days_employed']):
        if (row['dob_years'] == 0) and (math.isnan(row['days_employed'])):
            return 24
        if row['dob_years_category'] == 0:
            return 4611.266086
        elif row['dob_years_category'] == 1:
            return 633.678086
        elif row['dob_years_category'] == 2:
            return 1246.231977
        elif row['dob_years_category'] == 3:
            return 2103.700591
        elif row['dob_years_category'] == 4:
            return 3065.967424
        elif row['dob_years_category'] == 5:
            return 9365.134544
    else:
        return row['days_employed']

In [22]:
df['days_employed'] = df.apply(work_experience, axis=1)

In [23]:
df.groupby(['income_type'])['total_income'].mean()

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        170898.309923
компаньон          202417.461462
пенсионер          137127.465690
предприниматель    499163.144947
сотрудник          161380.260488
студент             98201.625314
Name: total_income, dtype: float64

In [24]:
df.groupby(['income_type'])['total_income'].median()

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64

У безработных хороший ежемесячный доход.

В колонке *total_income* медиана и среднее значение близки.

Для заполнения пропусков в колонке *total_income* выбиру медиану.

In [25]:
def salary_by_position(row):
    if math.isnan(row['total_income']):
        if row['income_type'] == 'безработный':
            return 131339.751676
        elif row['income_type'] == 'в декрете':
            return 53829.130729
        elif row['income_type'] == 'госслужащий':
            return 150447.935283
        elif row['income_type'] == 'компаньон':
            return 172357.950966
        elif row['income_type'] == 'пенсионер':
            return 118514.486412
        elif row['income_type'] == 'предприниматель':
            return 499163.144947
        elif row['income_type'] == 'сотрудник':
            return 142594.396847
        elif row['income_type'] == 'студент':
            return 98201.625314
    else:
        return row['total_income']

In [26]:
df['total_income'] = df.apply(salary_by_position, axis=1)

In [27]:
df.isna().sum()

children              0
days_employed         0
dob_years             0
education             0
education_id          0
family_status         0
family_status_id      0
gender                0
income_type           0
debt                  0
total_income          0
purpose               0
dob_years_category    0
dtype: int64

**Вывод**

- в колонке трудовой стаж были отрицательные числа, заменила их положительные.
- в колонке трудовой стаж были очень большие числа, возможно это трудовой стаж в часах, а не в днях, поделила все аномально большие числа на 24.
- я разделила клиентов на категории по возрасту, потом в каждой категории нашла средний стаж работы и заполнила пропуски в колонке *days_employed*, в зависимости от категории стажа.
- в датасете есть колонка с информацией о должности клинта (income_type — тип занятости), по каждому типу занятости я нашла медиану по зарплате и заполнила пропуски в колонке *total_income*, в зависимости от должности клиента.

### Замена типа данных

Нужно заменить вещественный тип данных на целочисленный.

С типом float64 всего 2 колонки.

In [28]:
df['days_employed'] = df['days_employed'].astype('int')

In [29]:
df['total_income'] = df['total_income'].astype('int')

In [30]:
# проверяю получились ли изменения
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
children              21525 non-null int64
days_employed         21525 non-null int64
dob_years             21525 non-null int64
education             21525 non-null object
education_id          21525 non-null int64
family_status         21525 non-null object
family_status_id      21525 non-null int64
gender                21525 non-null object
income_type           21525 non-null object
debt                  21525 non-null int64
total_income          21525 non-null int64
purpose               21525 non-null object
dob_years_category    21525 non-null int64
dtypes: int64(8), object(5)
memory usage: 2.1+ MB


**Вывод**

Воспользуюсь методом `astype`, так как он переведет из типа float в int.

### Обработка дубликатов

In [31]:
# Явные дубликаты
df.duplicated().sum()

54

In [32]:
# Удаляю явные дубликату и обновляю индексы
df = df.drop_duplicates().reset_index(drop=True)

In [33]:
df.duplicated().sum()

0

Неявные дубликаты

In [34]:
df['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

В колонке *purpose* неявных дубликатов нет

In [35]:
df['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Приведу все слова к нижнему регистру

In [36]:
df['education'] = df['education'].str.lower()

In [37]:
df['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [38]:
df['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

В колонке *family_status* дубликатов нет

In [39]:
df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

В колонке *gender* дубликатов нет, но есть средний пол.

In [40]:
df.loc[df['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_years_category
10690,0,2358,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости,2


Всего один человек с полом XNA, это может быть и женщина и мужчина.

In [41]:
# после устранения неявных дубликатов, делаю опять проверку на явные дубликаты
df.duplicated().sum()

17

In [42]:
# удаляю явные дубликаты
df = df.drop_duplicates().reset_index(drop=True)

In [43]:
df.duplicated().sum()

0

**Вывод**

Что бы найти дубликаты воспользовалась методом `duplicated()` и сложила их, что бы получить общее количество явных дубликатов.

С помощью метода `drop_duplicates()` удалила дубликаты и потом обновила индексы.

Причины появления дубликатов:
- возможно клиенты несколько раз обращались в банк за кредитом
- клиенты приходили в разные филиалы банка за кредитом и их басы не были синхронизированы
- может здесь указаны клиенты разных банков
- техническая ошибка

### Лемматизация

Нужно выделить леммы в значениях столбца с целями получения кредита

In [44]:
# посмотрим какие уникальные значения есть, что бы составить категории для цели кредита
df['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Я сделала 7 категорий:
1) Цели кретида связанные с: покупкой жилья, операции с жильем, покупка жилой недвижимости, отнесла в категориь *жилье*.

2) Цели кретида связанные с: покупкой автомобиля, сделка с автомобилем, отнесла в категорию *автомобиль*.

3) Если цель кредита обучение, образование любого уровня, то категория *образование*.

4) Если кредит берется на строительство жилой нежвижимсоти, коммерческой недвижимости, дома, то категория *строительство*.

5) Любой кредит на свадьбу относиться к категории *свадьба*

6) Кретит на ремонт относиться к категории *ремонт*

7) И отдельно выделила категорию *коммерческой недвижимости*, так как она отличается от жилой недвижимости.

In [45]:
def lemmatization(row):
    '''Функция обрабатывает каждую ячейку из колонки df['purpose'], 
    в процессе обработки цели кредита функция m.lemmatize() определяет леммы слов, 
    а затем по ключевому слову в лемме определяет категорию цели кредита 
    и цель кредита попадает в новую колонку'''
    lemmas = m.lemmatize(row)
    if ('коммерческий' in lemmas) and ('недвижимость' in lemmas) and (not 'строительство' in lemmas):
        return 'коммерческая недвижимость'
    if ('жилье' in lemmas) or (('недвижимость' in lemmas) and (not 'строительство' in lemmas)):
        return 'жилье'
    if 'автомобиль' in lemmas:
        return 'автомобиль'
    if 'образование' in lemmas:
        return 'образование'
    if 'свадьба' in lemmas:
        return 'свадьба'
    if 'строительство' in lemmas:
        return 'строительство'
    if 'ремонт' in lemmas:
        return 'ремонт'

In [46]:
df['category_purpose'] = df['purpose'].apply(lemmatization)

Проверяю, что в колонке *category_purpose* нет пропущенных значений.

In [47]:
df['category_purpose'].isna().sum()

0

**Вывод**

Выполнила лемматизацию колонки *purpose* и на основе ключевых слов из лемм определила категории целей кредитов.

### Категоризация данных

Для дальнейшего анализа, мне надо клиентов разделить на группы по:
1) наличие или отсутсвие детей

2) семейное положение

3) уровень дохода

4) цели кредита

In [48]:
# категории целей кредита
df['category_purpose'].value_counts()

жилье                        7622
автомобиль                   4306
образование                  4013
свадьба                      2324
строительство                1878
коммерческая недвижимость    1311
Name: category_purpose, dtype: int64

In [49]:
# категории семейного положения
df['family_status'].value_counts()

женат / замужем          12339
гражданский брак          4151
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

In [50]:
df['children'].value_counts()

 0     14091
 1      4808
 2      2052
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Есть отрицательные числа. И у 76 семей по 20 детей, наверное, это ошибка. Возможно изначально это было число типа float 2.0. Но потом при копировании они превратилось в 20.

Введу новую категорию наличие детей в семье:
- нет - нет детей
- да - есть дети, 1-2 ребенка
- многодетные - есть дети, 3 и более детей

In [51]:
# исправляю отрицательное число
df['children'] = abs(df['children'])

In [52]:
def count_children(row):
    if row == 20:
        return 2
    return row

In [53]:
# 20 детей в семье заменяю на 2
df['children'] = df['children'].apply(count_children)

In [54]:
def children_in_family(row):
    if row == 0:
        return 'нет'
    elif (row == 1) or (row == 2):
        return 'да'
    else:
        return 'многодетные'

In [55]:
df['having_children'] = df['children'].apply(children_in_family)

In [56]:
# получилась новая категория с отсутствием млм наличием детей в семье
df['having_children'].value_counts()

нет            14091
да              6983
многодетные      380
Name: having_children, dtype: int64

Так как доход у всех разный, нужно категоризовать данные.

Введу 6 категории:
- очень низкий
- низкий
- средний
- выше среднего
- высокий
- очень высокий

- очень низкий уровень дохода (от 20 000 до 50 000 )
- низкий уровень дохода (от 50 000 до 100 000)
- средний уровень дохода (от 100 000 до 200 000)
- выше среднего уровень дохода (от 200 000 до 500 000)
- высокий уровень дохода ( от 500 000 до 1 000000)
- очень высокий уровень дохода (от 1 000000)

In [57]:
def total_income_category(salary):
    if 20000 < salary < 50000:
        return 'очень низкий'
    if 50000 <= salary < 100000:
        return 'низкий'
    if 100000 <= salary < 200000:
        return 'средний'
    if 200000 <= salary < 500000:
        return 'выше среднего'
    if 500000 <= salary < 1000000:
        return 'высокий'
    if 1000000 <= salary:
        return 'очень высокий'

In [58]:
df['income_categories'] = df['total_income'].apply(total_income_category)

In [59]:
df['income_categories'].value_counts()

средний          11924
выше среднего     4845
низкий            4091
очень низкий       372
высокий            197
очень высокий       25
Name: income_categories, dtype: int64

**Вывод**

Для дальнейшего анализа, мне понадобятся 4 характеристики клиентов:
1) наличие или отсутсвие детей

2) семейное положение

3) уровень дохода

4) цели кредита

Категоризацыю недостающих недостающих характеристик выполнила. Данные готовы к исследованию.

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

*debt* — имел ли задолженность по возврату кредитов

*having_children* — наличие детей в семье

In [60]:
df['having_children'].unique()

array(['да', 'нет', 'многодетные'], dtype=object)

Примерно у 65,7% клиентов нет детей, у 32% 1-2 ребенка и у остальных 3 и более детей.

In [61]:
df['debt'].unique()

array([0, 1])

In [62]:
df['debt'].value_counts()


0    19713
1     1741
Name: debt, dtype: int64

In [63]:
print('клиенты, которые не имеют задолжность - {:.0%}'.format(19730 / df['debt'].count()))
print('клиенты, которые имеют задолжность - {:.0%}'.format(1741 / df['debt'].count()))

клиенты, которые не имеют задолжность - 92%
клиенты, которые имеют задолжность - 8%


In [64]:
# Сводная таблтца по количеству детей у клиента и наличием или отсутствием задолжности
pivot_debt_children = pd.pivot_table(df, index=['having_children'], values='debt', aggfunc='mean')
pivot_debt_children

Unnamed: 0_level_0,debt
having_children,Unnamed: 1_level_1
да,0.092654
многодетные,0.081579
нет,0.075438


**Вывод**

Если среднее число из сводной таблице ближе к 1, значит у этой категории клиентов чаще встречаются долг по кредиту.

Если у клиента 1-2 ребенка, то чаще есть задержки по кредиту.

У многодетных клиентов и клиентов без детей вероятность задержки по кредиту близка.

Изначально в датасете было много представлено клиентов без детей, все таки сравнивая группы, они должны быть примерно одинаковые по количеству.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [65]:
df['family_status'].value_counts()

женат / замужем          12339
гражданский брак          4151
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

In [66]:
# Сводная таблтца по семейному положению и наличием или отсутствием задолжности
pivot_debt_family_status = pd.pivot_table(df, index=['family_status'], values='debt', aggfunc='mean')
pivot_debt_family_status

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
Не женат / не замужем,0.097509
в разводе,0.07113
вдовец / вдова,0.065693
гражданский брак,0.093471
женат / замужем,0.075452


**Вывод**

Клиенты, которые находятся в *граждаском браке* или *не замужние* чаще имеют задержки по кредиту.

Овдовевшие клиенты надежней сотальных, реже встречаются должники.

В категориях клиентов: замужние / женатые, в разводе, количество должников близкое друг к другу.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [67]:
df['income_categories'].value_counts()

средний          11924
выше среднего     4845
низкий            4091
очень низкий       372
высокий            197
очень высокий       25
Name: income_categories, dtype: int64

Сводная таблица между категорией доходов и возвратом кредита в срок

In [68]:
pivot_salaries_debt = pd.pivot_table(df, index=['income_categories'], values='debt', aggfunc='mean')
pivot_salaries_debt

Unnamed: 0_level_0,debt
income_categories,Unnamed: 1_level_1
высокий,0.060914
выше среднего,0.071001
низкий,0.080909
очень высокий,0.08
очень низкий,0.061828
средний,0.086297


**Вывод**

Клиенты со средним доходом чаще остальных имеют задержки по кредиту.

Клиенты с низким и очень высоким доходом схожи по частоте задержки вредита.

Надежныек клиенты чаще втречаются в категории клиентов с высоким( от 500 000 до 1 000000) и очень низким доходом(от 20 000 до 50 000 ).

- Как разные цели кредита влияют на его возврат в срок?

In [69]:
pivot_purpose_debt = pd.pivot_table(df, index=['category_purpose'], values='debt', aggfunc='mean')
pivot_purpose_debt

Unnamed: 0_level_0,debt
category_purpose,Unnamed: 1_level_1
автомобиль,0.09359
жилье,0.070716
коммерческая недвижимость,0.075515
образование,0.0922
свадьба,0.080034
строительство,0.076677


**Вывод**

Клиенты, которые берут кредит на автомобиль, образование чаще имеют задолжности по кредиту.

Клиенты, берущие кредит на жилье, надежней остальных.

## Шаг 4. Общий вывод

Расчеты показали, что различные характеристики клиента могут влиять на задолность:
- Если у клиента 1-2 ребенка, то чаще есть задержки по кредиту.
- У многодетных клиентов и клиентов без детей вероятность задержки по кредиту близка и эти клиенты надежней клиентов, у которых 1-2 ребенка.
- Клиенты, которые находятся в *граждаском браке* или *не замужние* чаще имеют задержки по кредиту.
- Овдовевшие клиенты надежней сотальных, реже встречаются должники.
- В категориях клиентов: замужние / женатые, в разводе, количество должников близкое друг к другу.
- Клиенты со средним доходом чаще остальных имеют задержки по кредиту.
- Клиенты с низким и очень высоким доходом схожи по частоте задержки вредита.
- Надежные клиенты чаще втречаются в категории клиентов с высоким(от 500 000 до 1 000000) и очень низким доходом(от 20 000 до 50 000).
- Клиенты имеющие кредит на автомобиль, образование чаще имеют задолжности по кредиту.
- Клиенты, берущие кредит на жилье, надежней остальных. Все креиты связанные с любым жильем(коммерческое, некоммерческое) близки по количеству задолжников.