# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Откройте файл с данными и изучите общую информацию

Откроем файл и изучем общую информацию о нем.

In [1]:
import pandas as pd
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

In [2]:
df = pd.read_csv('/datasets/data.csv')
df.info()
display(df.head(15))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Подробнее изучим уникальные значения в столбцах для поиска артефактов в данных.

In [3]:
#Найдем уникальные значения:
display(df['children'].unique())
display(df['dob_years'].unique())
display(df['education'].unique())
display(df['education_id'].unique())
display(df['family_status'].unique())
display(df['gender'].unique())
display(df['income_type'].unique())
display(df['purpose'].unique())

array([ 1,  0,  3,  2, -1,  4, 20,  5])

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

array([0, 1, 2, 3, 4])

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

array(['F', 'M', 'XNA'], dtype=object)

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Вывод**

После предварительного изучения данных видим следующие "проблемные места":
1. В столбце `children` встречается отрицательное значение, а также подозрительные - 20 детей, это конечно возможно, но очень маловероятно.
2. В столбце `dob_years` есть нулевой возраст.
3. в столбце `days_employed` имеются пропуски, а также встречаются странные значения: некоторые из них отрицательные, некоторые - превышают 900 лет, что весьма странно.
4. В столбце `education` имеется много неявных дубликатов, как и в столбце 'purpose'.
5. В столбце `family_status` необходимо заменить 'Не женат / не замужем' на нижний регистр.
6. В столбце `gender` встречается значение 'XNA'.
7. В столбце `total_income` встречаются пропуски.

## Предобработка данных

### Обработка пропусков

Для начала исправим аномалии в данных, а именно необходимо исправить отрицательные значения в столбце с количеством детей в семье.

In [4]:
df['children'] = df['children'].abs()
display(df)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


Проверим работу метода `.abs()`.

In [5]:
display(df['children'].unique())

array([ 1,  0,  3,  2,  4, 20,  5])

Так как мы видим значение 20 детей в семье, просмотрим строки с данными значениями.

In [6]:
display(df[df['children'] == 20])

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,-880.221113,21,среднее,1,женат / замужем,0,M,компаньон,0,145334.865002,покупка жилья
720,20,-855.595512,44,среднее,1,женат / замужем,0,F,компаньон,0,112998.738649,покупка недвижимости
1074,20,-3310.411598,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518.537004,получение образования
2510,20,-2714.161249,59,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474.835577,операции с коммерческой недвижимостью
2941,20,-2161.591519,0,среднее,1,женат / замужем,0,F,сотрудник,0,199739.941398,на покупку автомобиля
...,...,...,...,...,...,...,...,...,...,...,...,...
21008,20,-1240.257910,40,среднее,1,женат / замужем,0,F,сотрудник,1,133524.010303,свой автомобиль
21325,20,-601.174883,37,среднее,1,женат / замужем,0,F,компаньон,0,102986.065978,профильное образование
21390,20,,53,среднее,1,женат / замужем,0,M,компаньон,0,,покупка жилой недвижимости
21404,20,-494.788448,52,среднее,1,женат / замужем,0,M,компаньон,0,156629.683642,операции со своей недвижимостью


В данном случае на мой взгляд закралсь ошибка. Конечно может быть, что человек в 21 год усыновил 20 детей, но у нас 76 строк из 21525. 0,35 % на мой взгляд сильно не повлияет на результат исследования, но было бы неплохо об этом сообщить разработчикам. Тем не менее предположим что должно быть значение 2.

In [7]:
df['children'] = df['children'].replace(20, 2)

Проверим работу метода .replace.

In [8]:
display(df['children'].unique())

array([1, 0, 3, 2, 4, 5])

Так как в исследовании не требуется зависимость возврата кредита от стажа, то удалим данный столбец. 

In [9]:
df.drop('days_employed', axis=1, inplace=True)
display(df)

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...
21520,1,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


Посмотрим пропущенные значения в столбце `total_income`.

In [10]:
display(df[df['total_income'].isna()])

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...
21489,2,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Предположим что пропуски ежемесечного дохода можно заполнить медианным значением для каждой группы клиентов по типу занятости. Просмотрим количество клиентов в каждой группе.

In [11]:
display(df['income_type'].value_counts())

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
в декрете              1
студент                1
Name: income_type, dtype: int64

Заполним пропуски в столбце `total_income` медианным значением для каждой группы клиентов, разделенных по типу занятости. Для этого создадим функцию, которая будет возвращать нужное нам значение отностительно типа занятости клиента.

In [12]:
#Создадим Series с медианными значениями в группах:

set_total_income_median = df.groupby('income_type')['total_income'].median()
#display(set_total_income_median['сотрудник'])

# Создадим функцию, которая возвращает медианное значение ежемесечного дохода
# по названию группы занятости:

def median_income(income_type):
    incorrect_values = []
    try:
        return set_total_income_median[income_type]
    except:
        incorrect_values.append(income_type)
        return ('Некорректные значения', incorrect_values)
        
#display(median_income('гость'))

Применим нашу функцию.

In [13]:
df['total_income'] = df['total_income'].fillna(df['income_type'].apply(median_income))

Проверим, остались ли пропуски значений.

In [14]:
df.isna().sum()

children            0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

**Вывод**

Мы обработали пропуски значений в таблице следующим образом:
1. Так как в нашем исследовании не требуется стаж работы, то мы его удалили.
2. В столбце эжемесячный доход пропуски заполнили медианным значением ежемесячного дохода для каждого типа занятости клиентов.
Одновременно с этим, мы перевели значения столбца количество детей в семье в абсолютные значения, а также обратили внимание на подозрительное значение (20 детей) в данном столбце, и заменили на более подходящее значение.

### Замена типа данных

Заменим тип данных в столбце 'total_income' на целочисленные значения методом .astype().

In [15]:
df['total_income'] = df['total_income'].astype('int')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   dob_years         21525 non-null  int64 
 2   education         21525 non-null  object
 3   education_id      21525 non-null  int64 
 4   family_status     21525 non-null  object
 5   family_status_id  21525 non-null  int64 
 6   gender            21525 non-null  object
 7   income_type       21525 non-null  object
 8   debt              21525 non-null  int64 
 9   total_income      21525 non-null  int64 
 10  purpose           21525 non-null  object
dtypes: int64(6), object(5)
memory usage: 1.8+ MB


**Вывод**

При вызове метода .info() видим, что преобразования прошли успешно.

### Обработка дубликатов

Найдем явные дубликаты и удалим их. Перед этим приведем к нижнему регистру стобец с образованием и с количеством детей в семье.

In [16]:
df['education'] = df['education'].str.lower()
df['family_status'] = df['family_status'].str.lower()
display(df.duplicated().sum())

71

In [17]:
df.drop_duplicates()

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...
21520,1,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21521,0,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21523,3,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


In [18]:
df = df.drop_duplicates().reset_index(drop=True)

Проверим отсутсвие дубликатов в данных

In [19]:
display(df.duplicated().sum())

0

**Вывод**

После некоторых манипуляций мной были удилены все дублирующие значения.

### Лемматизация

Найдем уникальные значения столбца 'purpose'.

In [20]:
display(df['purpose'].unique())

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

После изучения всех уникальных значений выделим несколько назавний ключевых целей, по которым сможем в дальнейщем лемматизировать: автомобиль, ремонт, строительство, образование, свадьба, недвижимость.

In [21]:
# Создадим функицю, которая будет возвращать название категории целей кредита
# с использованием лемматизации. Категории были выбраны вручную, после изучения
# уникальных значений столбца 'purpose'.

def transformation_purpose(purpose):
    lemma = m.lemmatize(purpose)
    if 'автомобиль' in lemma:
        return 'автомобиль'    
    elif 'ремонт' in lemma:
        return 'ремонт'       
    elif 'строительство' in lemma:
        return 'строительство'
    elif 'образование' in lemma:
        return 'образование'
    elif 'свадьба' in lemma:
        return 'свадьба'
    elif ('жилье' in lemma) or ('недвижимость' in lemma):
        return 'недвижимость'
    else:
        return 'другое'  
df['finished_purpose']= df['purpose'].apply(transformation_purpose) 
display(df.head(10))

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,finished_purpose
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба
5,0,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость
6,0,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость
7,0,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование
8,2,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба
9,0,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость


Проверим наши преобразования.

In [22]:
display(df['finished_purpose'].value_counts())

недвижимость     8326
автомобиль       4306
образование      4013
свадьба          2324
строительство    1878
ремонт            607
Name: finished_purpose, dtype: int64

**Вывод**

После изучения уникальных значений столбца с целями кредита, мы выделили 6 наиболее подходящий крупных целей. Далее, пролемматизировав данный столбец, можем применить данные для анализа.

### Категоризация данных

Для удобства анализа данных разобъем нашу таблицу на словари. 
Выделим три словаря: 
    
    первый - 'education', 'education_id'; 
    второй - 'family_status', 'family_status_id'; 
    третий - 'total_income', 'income_level', 'income_id'. 

In [23]:
df_dict_edu = df[['education', 'education_id']].drop_duplicates().reset_index(drop=True)
display(df_dict_edu)

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [24]:
df_dict_fam = df[['family_status', 'family_status_id']].drop_duplicates().reset_index(drop=True)
display(df_dict_fam)

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,не женат / не замужем,4


С третьим словарем чуть сложнее. Разобъем данные по уровню ежемесячного дохода на три четыре группы по квартилям столбца 'total_income'.

In [25]:
# Найдем квартили столбца 'total_income':

display(df['total_income'].quantile([.25, .5, .75]))

# Напишем функцию, которая возвращает название категории
# в зависимости от уровня ежемесечного дохода:

def total_income_groupe(income):
    if income < df['total_income'].quantile(0.25):
        return 'низкий'
    elif income < df['total_income'].quantile(0.5):
        return 'средний'
    elif income < df['total_income'].quantile(0.75):
        return 'выше среднего'
    return 'высокий'


# Также напишем функцию, которая возвращает id категории
# по уровню дохода:

def total_income_groupe_id(income):
    if income == 'низкий':
        return 0
    elif income == 'средний':
        return 1
    elif income == 'выше среднего':
        return 2
    return 3

# Проверим работу функций:
#display (total_income_groupe_id(total_income_groupe(20)))
#display (total_income_groupe(130000))
#display (total_income_groupe(150000))
#display (total_income_groupe(2000000))

0.25    107623.00
0.50    142594.00
0.75    195820.25
Name: total_income, dtype: float64

Применим функции total_income_groupe(income) и total_income_groupe_id(income) к нашему DataFrame и создадим новые столбцы с результатами работы этих функций.

In [26]:
df['income_level'] = df['total_income'].apply(total_income_groupe)
df['income_id'] = df['income_level'].apply(total_income_groupe_id)
display(df.head(10))

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,finished_purpose,income_level,income_id
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,высокий,3
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,средний,1
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,выше среднего,2
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,высокий,3
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,выше среднего,2
5,0,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость,высокий,3
6,0,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость,высокий,3
7,0,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование,средний,1
8,2,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба,низкий,0
9,0,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость,выше среднего,2


Создадим словарь для уровня ежемесячного дохода, категорий и iиндентификатор этих категорий.

In [27]:
def children_groupe(child):
    if child < 1:
        return 0
    elif child < 2:
        return 1
    elif child < 3:
        return 2
    return 3

In [28]:
df['children_level'] = df['children'].apply(children_groupe)
df_dict_child = df[['children_level']].drop_duplicates().reset_index(drop=True).sort_values('children_level')
display(df_dict_child)

Unnamed: 0,children_level
1,0
0,1
3,2
2,3


In [29]:
df_dict_inc = df[['income_level', 'income_id']].drop_duplicates().reset_index(drop=True).sort_values('income_id')
display(df_dict_inc)

Unnamed: 0,income_level,income_id
3,низкий,0
1,средний,1
2,выше среднего,2
0,высокий,3


Также сделаем таблицу с логом всех операций, оставим только идентификаторы образования, семейного статуса.

In [30]:
df_log = df[['education_id', 'family_status_id', 'children', 'dob_years', 'total_income', 'finished_purpose', 'debt']]
display(df_log.head(10))

Unnamed: 0,education_id,family_status_id,children,dob_years,total_income,finished_purpose,debt
0,0,0,1,42,253875,недвижимость,0
1,1,0,1,36,112080,автомобиль,0
2,1,0,0,33,145885,недвижимость,0
3,1,0,3,32,267628,образование,0
4,1,1,0,53,158616,свадьба,0
5,0,1,0,27,255763,недвижимость,0
6,0,0,0,43,240525,недвижимость,0
7,1,0,0,50,135823,образование,0
8,0,1,2,35,95856,свадьба,0
9,1,0,0,41,144425,недвижимость,0


**Вывод**

Наши данные мы разбили на словари из идентификаторов категорий образования и семейного положения, создали новые категории для уровня заработка.

## Ответьте на вопросы

### Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [31]:
df_children = df.pivot_table(index=['children_level'], values='debt', aggfunc='mean')
df_children['debt'] = (df_children['debt'] * 100.).round(3).astype(str) + '%'
display(df_children.sort_values('debt'))
#display(df['children_level'].value_counts())
#display(df['children'].value_counts())

Unnamed: 0_level_0,debt
children_level,Unnamed: 1_level_1
0,7.544%
3,8.158%
1,9.166%
2,9.492%


**Вывод**

По нашим данным, мы видим, что семьи без детей возвращают кредит чаще, чем семьи с детьми. Семьи с 5 детьми, по нашему анализу, возвращают всегда, но прошу заметить таких всего 9 записей, что не является нерепрезентативными данными.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [32]:
df_family = df.pivot_table(index=['family_status_id'], values='debt', aggfunc='mean')
df_family = df_dict_fam.merge(df_family, on='family_status_id', how='left')
df_family['debt'] = (df_family['debt'] * 100.).round(3).astype(str) + '%'
display(df_family.sort_values('debt'))

#display(df['family_status'].value_counts())

Unnamed: 0,family_status,family_status_id,debt
2,вдовец / вдова,2,6.569%
3,в разводе,3,7.113%
0,женат / замужем,0,7.545%
1,гражданский брак,1,9.347%
4,не женат / не замужем,4,9.751%


**Вывод**

По результатам анализа мы видим что вдовы/вдовцы возвращают кредит чаще остальных категорий клиентов, а именно в 93,4 % случаев, а не женатые/не замужние - реже всех - 90,3% возврата.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [33]:
df_total_income = df.pivot_table(index=['income_id'], values='debt', aggfunc='mean')
df_total_income = df_dict_inc.merge(df_total_income, on='income_id', how='left')
df_total_income['debt'] = (df_total_income['debt'] * 100.).round(3).astype(str) + '%'
display(df_total_income.sort_values('debt'))

#display(df['income_level'].value_counts())

Unnamed: 0,income_level,income_id,debt
3,высокий,3,7.14%
0,низкий,0,7.96%
2,выше среднего,2,8.643%
1,средний,1,8.732%


**Вывод**

С низким и высоким уровнем ежемесячного дохода, в 92,8% случаев вернули кредит в срок, что является чаще всех остальных групп.

### Как разные цели кредита влияют на его возврат в срок?

In [34]:
df_purpose = df.pivot_table(index=['finished_purpose'], values='debt', aggfunc='mean')
df_purpose['debt'] = (df_purpose['debt'] * 100.).round(3).astype(str) + '%'
display(df_purpose.sort_values('debt'))

#display(df['finished_purpose'].value_counts())

Unnamed: 0_level_0,debt
finished_purpose,Unnamed: 1_level_1
ремонт,5.766%
недвижимость,7.242%
строительство,7.668%
свадьба,8.003%
образование,9.22%
автомобиль,9.359%


**Вывод**

Чаще возвращают кредиты на ремонт, чуть реже - на недвижимость, свадьбу и строительство, реже всего возвращают за автомобиль и образование.

## Общий вывод

Таким образом мы провели анализ возврата кредита клиентам банка. Из данного анализа можно сделать следующие выводы: 

    чаще возвращают кредиты на ремонт; 
    люди с низким и высоким уровнем ежемесечного дохода; 
    также чаще возвращают кредит вдовы/вдовцы и семьи без детей.