# Задачи исследования

**1. Осмотр данных**
- посмотрим начало и конец датасета
- сделаем предварительные выводы
- поиск аномалий


**2. Обработка данных**
- устранение аномалий при возможности 
- поиск и обработка пропусков
- замена некорректных типов данных
- удаление дубликатов


**3. Ответы на вопросы**
- Есть ли зависимость между наличием детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?


**4. Результаты исследования**
- Общий вывод


# Исследование надежности заемщиков.

##  Обзор данных

In [1]:
import pandas as pd
import numpy as np

from pymystem3 import Mystem


In [2]:
df = pd.read_csv('/datasets/data.csv')

## Прочтём данные и посмотрим на них

**Посмотрим начало и конец таблицы, выведем информацию по ней**

In [3]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
df.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [6]:
df.describe() # общие статистические данные

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


## Вывод

**Проблемы, которые необходимо исправить:**

- отрицательные значения в количестве детей, а так же в днях стажа
- отсутствуют строки в днях стажа и доходе
- некорректные типы данных — в днях стажа и в доходе плавающая точка
- дни стажа в днях, более удобно будет в полных годах
- дублирование причины взятие кредита (описание разное - цель одна, образование, авто, недвижимость и т.п.)
- разный регистр букв в графе образование
- валюта дохода (но предположим, что все данные указаны в рублях)
- значение в возрасте должно быть > 18

# Этапы обработки данных

## Заполнение пропусков

**Найдем и исправим пропуски в данных**

In [7]:
# Проверим наличие пропусков
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски обнаружены в граффах стажа работы и среднего дохода
Возможны некоторые причины: 
- люди никогда не работали
- данные не были предоставлены
- ошибка при выгрузке данных

Заменять данные на средние значения крайне не корректно по той причине, что они могут повлиять на решение о выдаче кредита, но данного требования и нет, но и заменять пропуски на значение 0 так же не правильно, так как это уже в прямой степене будет влиять на исследование в целом, хотя стаж не влияет на цель исследования, а средний доход можно приравнять к среднему значению по статусу заёмщика (сотрудник, компаньон, предприниматель, потому как приравнивать 20ти летнего студента с предпринимателем со стажем по среднему доходу не будет правильным), что возможно положительно скажется на исследовании.
Поэтому заменим все пропуски временно на абсолютный 0, который в последствии сможем изменить при необходимости на среднее значение, для удобства работы с данными (потому как доля пропусков достаточно велика по отношение к общему числу данных)

In [8]:
# проверим в начале, есть в принципе те, кто записывал стаж и ежемесячный доход как "0"
print(df[df['total_income'] == 0]['total_income'].count())
print(df[df['days_employed'] == 0]['days_employed'].count())
# использовал print, что бы вывести оба значения

0
0


In [9]:
# Заменим пропуски на "асолютный 0" 
df['total_income'] = df['total_income'].fillna(0)
df['days_employed'] = df['days_employed'].fillna(0)

## Проверка данных на аномалии и исправления.

**Проверим данные и исправим данные в графе 'children'**

Первая аномалия - кол-во детей -1

Вторая аномаия - кол-во детей 20

In [10]:
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

In [11]:
# -1 слишком мало, 20 слишком много, но не исключено
# определим общее число строк с такими данными
# кол-во детей -1
df[df['children'] == -1]['children'].count()

47

In [12]:
# заменим -1 на 1, возможно допущена ошибка при вводе
df['children'] = df['children'].replace(-1, 1)

In [13]:
# проверим
df[df['children'] == -1]['children'].count()

0

In [14]:
# кол-во детей 20
df[df['children'] == 20]['children'].count()

76

In [15]:
# проверим по возрасту
df[df['children'] == 20].groupby('dob_years')['dob_years'].count()

dob_years
0     1
21    1
23    1
24    1
25    1
26    1
27    2
29    2
30    3
31    2
32    2
33    2
34    3
35    2
36    2
37    4
38    1
39    1
40    4
41    2
42    3
43    2
44    2
45    3
46    3
48    1
49    3
50    3
51    1
52    1
53    1
54    1
55    1
56    5
57    1
59    2
60    1
61    1
62    1
64    1
69    1
Name: dob_years, dtype: int64

In [16]:
# после 35 лет всё возможно, но до... 
# возмем данный факт за ошибку, и исправим на 2 ("замену на 2" взял как вариант из ответов в групповом чате)
# возможно 0 стоял по умолчанию в графе "кол-во детей" и добавился к вводимым данным
# заменим 20 на 2
df['children'] = df['children'].replace(20, 2)

In [17]:
# сгруппируем и посмотрим что вышло
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

**Трудовой стаж в днях**

In [18]:
df['days_employed'].describe()

count     21525.000000
mean      56678.874622
std      134870.763085
min      -18388.949901
25%       -2518.168900
50%        -982.531720
75%           0.000000
max      401755.400475
Name: days_employed, dtype: float64

In [19]:
# - явно проблема в отрицательных значениях, возможно проблемма из-за выгрузки данных
# - значения дробные, гораздо нагляднее будет использовать года в стаже работы
# - много "нулевых" значений, но их исправление не является целью
# Исправим отрицательные значения
df['days_employed'] = df['days_employed'].abs()

In [20]:
# Переведем дни в года и добавим новый столбец в таблицу с данными
df['years_employed'] = df['days_employed'] / 365

In [21]:
# удалим данные со стажем работы в днях, они не понадобятся в исследовании в принципе
del df['days_employed']

**Корректировка данных со значениями среднего дохода**

In [22]:
# функция для замены "абсолютного нуля" среднего дохода медианой зарплаты в соответствии с категорией занятости
def non_years_employed(row): 
    if row['years_employed'] == 0:
        return df[df['income_type'] == row['income_type']]['total_income'].median()
    else:
        return row['total_income']
    df['total_income'] = df.apply(non_days_employed, axis=1)

**Проверка данных с гендорной принадлежностью заёмщика**

In [23]:
df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [24]:
# Имеются данные со значение 'XNA', посмотрим записи с эти значением
df[df['gender'] == 'XNA'].count()

children            1
dob_years           1
education           1
education_id        1
family_status       1
family_status_id    1
gender              1
income_type         1
debt                1
total_income        1
purpose             1
years_employed      1
dtype: int64

In [25]:
# Данная записи всего одна, оставим её, потому как на принадлежность по гендору её значение не влияет, 
# а вот вводные данные по зависимости возраста, цели или семейного положения могут повлиять на возврат кредита в срок

**Проверим значения возраста**

In [26]:
df[df['dob_years'] < 18].count()

children            101
dob_years           101
education           101
education_id        101
family_status       101
family_status_id    101
gender              101
income_type         101
debt                101
total_income        101
purpose             101
years_employed      101
dtype: int64

In [27]:
# Достаточно много, сгруппируем по стажу работы, который указали 
df[df['dob_years'] < 18].groupby(['years_employed'])['years_employed'].count()

years_employed
0.000000       10
0.298540        1
0.446403        1
0.483300        1
0.555070        1
               ..
1018.261037     1
1082.053000     1
1084.640585     1
1090.017986     1
1098.609249     1
Name: years_employed, Length: 92, dtype: int64

Возраст не указан как и с реальным стажем работы, так и с аномальным, стоит оставить, потому как не известна природа данных значений. В исследовании данный параметр повлияет только выдод о целях кредита.

In [28]:
# Со статусом заёмщика вроде всё впорядке
df['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [29]:
# С семейным статусом так же всё впрорядке, но для удобства приведём к нижнему регистру
df['family_status'] = df['family_status'].str.lower()
df['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

In [30]:
# По аналогии с семейным статусом сделаем то же самое и с образованием
df['education'] = df['education'].str.lower()
df['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

## Изменение типов данных.

In [31]:
# сделаем значения стажа работы целыми
df['years_employed'] = df['years_employed'].astype(int)
# по аналогии со стажем переведем средний доход в целые числа
df['total_income'] = df['total_income'].astype(int)
# Причины:
# - данные с дополнительными цифрами после запятой сложно воспринимать зрительно
# - в условии задачи можно пожертвовать минимальной точностью

## Удаление дубликатов.

In [32]:
# проверим дубликаты
print('Число дубликатов:', df.duplicated().sum())
print('Число полностью идентичных строк:', df.duplicated(keep = False).sum())
print('Доля дубликатов из общей длины массива: {:.2%}'.format(df.duplicated().sum() / len(df)))

Число дубликатов: 71
Число полностью идентичных строк: 137
Доля дубликатов из общей длины массива: 0.33%


In [33]:
# для наглядности посмотрим на них
df[df.duplicated(keep = False)].sort_values('dob_years', ascending = False).head(10)

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
7938,0,71,среднее,1,гражданский брак,1,F,пенсионер,0,0,на проведение свадьбы,0
9604,0,71,среднее,1,гражданский брак,1,F,пенсионер,0,0,на проведение свадьбы,0
6537,0,71,среднее,1,гражданский брак,1,F,пенсионер,0,0,на проведение свадьбы,0
5865,0,66,среднее,1,вдовец / вдова,2,F,пенсионер,0,0,операции со своей недвижимостью,0
9528,0,66,среднее,1,вдовец / вдова,2,F,пенсионер,0,0,операции со своей недвижимостью,0
20187,0,65,среднее,1,гражданский брак,1,F,пенсионер,0,0,сыграть свадьбу,0
13035,0,65,среднее,1,гражданский брак,1,F,пенсионер,0,0,сыграть свадьбу,0
7313,0,64,высшее,0,гражданский брак,1,F,пенсионер,0,0,на проведение свадьбы,0
20702,0,64,среднее,1,женат / замужем,0,F,пенсионер,0,0,дополнительное образование,0
12389,0,64,среднее,1,женат / замужем,0,F,пенсионер,0,0,дополнительное образование,0


In [34]:
# дубли могли возникнуть из-за ошибки валидации при загрузке на сервер, что должно проверяться в самом начале
# Удалим их и сбросим идекс, т.к. такой процент не повлияет сильно на результат исследования
df = df.drop_duplicates().reset_index(drop=True)

In [35]:
# проверим
df.duplicated().sum()

0

In [36]:
# Посмотрим общую структуры полученных данных после всех исправлений
df.head(10)

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,23
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,11
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,15
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,11
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,932
5,0,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,2
6,0,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,7
7,0,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,0
8,2,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,18
9,0,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,5


## Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

**Создание новых датафреймов словарей**
к которым можно будет обращаться по идентификатору

In [37]:
df_education = df[['education_id', 'education']]
df_family_status = df[['family_status_id', 'family_status']]
# удалим сразу дубликаты из созданных словарей
df_education = df_education.drop_duplicates().reset_index(drop=True)
df_family_status = df_family_status.drop_duplicates().reset_index(drop=True)

In [38]:
df_education

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [39]:
df_family_status

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


In [40]:
# удаляем не нужные столбцы из датафрейма
df = df.drop(columns=['education', 'family_status'])

**В качестве дополнительного критерия для банка**

1. Посмотрим, влияет ли пол, на невыполнения кредитных обязательств.

In [41]:
gender_debt = df.pivot_table(index = ['gender'], values='debt', aggfunc = 'mean')
gender_debt

Unnamed: 0_level_0,debt
gender,Unnamed: 1_level_1
F,0.070128
M,0.102624
XNA,0.0


неожиданно, но примем во внимание

2. проверим возрастные группы

In [42]:
# объеденим всех клиентов в группы по возрасту
def average_age(dob_years):
    if dob_years <=33:
        return 'до 34'
    if dob_years >=34 and dob_years <=43:
        return '34-43'
    if dob_years >=44 and dob_years <53:
        return '44-53'
    if dob_years >=53:
        return '53+'
df['average_age'] = df['dob_years'].apply(average_age)

In [43]:
# теперь посмотри, что по возрасту, кто отдаёт долги вовремя
df.pivot_table(index = ['average_age'], values ='debt', aggfunc = 'mean')

Unnamed: 0_level_0,debt
average_age,Unnamed: 1_level_1
34-43,0.085749
44-53,0.071476
53+,0.057578
до 34,0.108835


После 50 становишься более ответственнен к своим обязательствам

## Категоризация дохода.

In [44]:
df['total_income_category'] = ''

In [45]:
df.loc[df['total_income'] < 30000, 'total_income_category'] = 'E'
df.loc[df['total_income'] > 30001, 'total_income_category'] = 'D'
df.loc[df['total_income'] > 50001, 'total_income_category'] = 'C'
df.loc[df['total_income'] > 200001, 'total_income_category'] = 'B'
df.loc[df['total_income'] > 1000000, 'total_income_category'] = 'A'

In [46]:
df.head()

Unnamed: 0,children,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,average_age,total_income_category
0,1,42,0,0,F,сотрудник,0,253875,покупка жилья,23,34-43,B
1,1,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,11,34-43,C
2,0,33,1,0,M,сотрудник,0,145885,покупка жилья,15,до 34,C
3,3,32,1,0,M,сотрудник,0,267628,дополнительное образование,11,до 34,B
4,0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,932,53+,C


## Категоризация целей кредита.

In [47]:
# посмотрим все варианты целей кредита
df['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Сгруппируем все возможные вариации целей на кредиты в 4 общие группы
 - операции с автомобилем
 - операции с недвижимостью
 - проведение свадьбы
 - получение образования

In [48]:
# проведем в начале лемматизацию
from pymystem3 import Mystem
m = Mystem()

def lemmatizator(i):
    lemmas = m.lemmatize(i)                     
    return lemmas

lemmas = df['purpose'].apply(lemmatizator)


In [49]:
# добавим стобец с обобщение вариантов целей на кредит
def repeat(i):
    if 'свадьба' in i:
        return 'проведение свадьбы'
    elif 'автомобиль' in i:
        return 'операции с автомобилем'
    elif 'недвижимость' in i or 'жилье' in i:
        return 'операции с недвижимостью'
    elif 'образование' in i:
        return 'получение образования'
    else:
        return 5
    
df['purpose_category'] = lemmas.apply(repeat)
df.head() 

Unnamed: 0,children,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,average_age,total_income_category,purpose_category
0,1,42,0,0,F,сотрудник,0,253875,покупка жилья,23,34-43,B,операции с недвижимостью
1,1,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,11,34-43,C,операции с автомобилем
2,0,33,1,0,M,сотрудник,0,145885,покупка жилья,15,до 34,C,операции с недвижимостью
3,3,32,1,0,M,сотрудник,0,267628,дополнительное образование,11,до 34,B,получение образования
4,0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,932,53+,C,проведение свадьбы


# Ответы на вопросы.

##### Вопрос 1:

**Есть ли зависимость между количеством детей и возвратом кредита в срок?**

In [50]:
having_children = df.pivot_table(index = ['children'], values='debt', aggfunc = ('mean', lambda X: X.count()))

def percent(x):
    return "{0:.2%}".format(x)

having_children['mean'] = having_children['mean'].apply(percent)
having_children = having_children.rename(columns={"<lambda_0>": "Всего записей", "mean": "Процент невозврата"})
having_children.sort_values(by='Всего записей', ascending=False)

Unnamed: 0_level_0,Всего записей,Процент невозврата
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,14091.0,7.54%
1,4855.0,9.17%
2,2128.0,9.49%
3,330.0,8.18%
4,41.0,9.76%
5,9.0,0.00%


##### Вывод 1:

По полученным данным, можно сделать вывод, что заёмщики без детей, чаще возвращают кредиты и не имею задолжности, возможно есть зависимость в том, что они имеют меньшие ежемесячные затраты. Больший процент с задолжностями у клиентов с детьми, предположу, что это может быть связано как раз с эти, могут возникать непредвиденные обстоятельства (например заболел ребёнок), при этом клиенты у которых 3 ребёнка, с кредитом рассчитываются более беспроблемно, возможно из-за большей ответственности. Говорить о низком проценте у клиентов с 5-ью детьми и самом высоком, у кого 4 ребенка, наверно не стоит, потому как достаточно малая выборка данных, но во внимание можно принять данный факт.

##### Вопрос 2:

**Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [51]:
family_status_duty = df.pivot_table(index = ['family_status_id'], values='debt', aggfunc = ('mean', lambda X: X.count()))

family_status_duty = family_status_duty.merge(df_family_status, on='family_status_id', how='left') 
def percent(x):
    return "{0:.2%}".format(x)

family_status_duty['mean'] = family_status_duty['mean'].apply(percent)
family_status_duty = family_status_duty.rename(columns={"<lambda_0>": "Всего записей", "mean": "Процент невозврата"})
family_status_duty.sort_values(by='Процент невозврата', ascending=False)


Unnamed: 0,family_status_id,Всего записей,Процент невозврата,family_status
4,4,2810.0,9.75%,не женат / не замужем
1,1,4151.0,9.35%,гражданский брак
0,0,12339.0,7.55%,женат / замужем
3,3,1195.0,7.11%,в разводе
2,2,959.0,6.57%,вдовец / вдова


##### Вывод 2:

Группа клиентов 'вдовец / вдова' являются самыми ответственными клинтами. Минимальная разница с теми, кто был хоть раз в браке и на данный момент находится в разводе. Группой большего риска можно считать кто состоит в гражданском браке или не состоит в браке вовсе.

##### Вопрос 3:

**Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [52]:
income_mean = df.pivot_table(index = ['total_income_category'], values='debt', aggfunc = ('mean', lambda X: X.count()))

def percent(x):
    return "{0:.2%}".format(x)

income_mean['mean'] = income_mean['mean'].apply(percent)
income_mean = income_mean.rename(columns={"<lambda_0>": "Всего записей", "mean": "Вероятный невозврата"})
income_mean.sort_values(by='Вероятный невозврата', ascending=True)

Unnamed: 0_level_0,Всего записей,Вероятный невозврата
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
D,350.0,6.00%
B,5040.0,7.06%
A,25.0,8.00%
E,2125.0,8.09%
C,13914.0,8.55%


##### Вывод 3:

Из полученной таблицы, можно сделать следующие выводы, что клиентов с высоким доходом достаточно не много, но и процент должников среди них не высокий тем не менее, так же можно сказать о категори "D", где данный показатель является минимальным. Самой многочисленной группой являются клиенты, кто указал доход более 50000, при этом, они же являются теми, кто имеет задолжность, возможно это может быть связано с тем, что они завышают свой реальный среднемесячный доход, для получения большей суммы кредита, и после не справляются с его уплатой. 
Но группы слишком разнятся в кол-ве клиентов в них, возможно стоит либо увеличить выборку, либо изменить категори доходов, например разбить категорию "C" на более мелкие подгруппы.

##### Вопрос 4:

**Как разные цели кредита влияют на его возврат в срок?**

In [53]:
purpose_ctgr = df.pivot_table(index = ['purpose_category'], values='debt', aggfunc = ('mean', lambda X: X.count()))

def percent(x):
    return "{0:.2%}".format(x)

purpose_ctgr['mean'] = purpose_ctgr['mean'].apply(percent)
purpose_ctgr = purpose_ctgr.rename(columns={"<lambda_0>": "Всего записей", "mean": "Вероятный невозврата"})
purpose_ctgr.sort_values(by='Вероятный невозврата', ascending=True)

Unnamed: 0_level_0,Всего записей,Вероятный невозврата
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
операции с недвижимостью,10811.0,7.23%
проведение свадьбы,2324.0,8.00%
получение образования,4013.0,9.22%
операции с автомобилем,4306.0,9.36%


##### Вывод 4:

Самый высокий показатель по выполнению своих кредитеых обязательств у клиентов, чьей целью являлась недвижимость, возможно здесь причина в большей стабильности недвижимых объектов и меньшей потерей её в цене со временем, далее идут клиенты, кто брал кредит на проведение свадьбы. С высокой долей невыполнения своих кредитных обязательств являются клиенты с целью получения образования и приобретением авто.

# Общий вывод:

Портрет идеально клиента банка:
 - женщина
 - старше 50
 - либо без детей, либо больше 5
 - цель кредита - недвижимость
 - доход более 200к
 - вдова или в разводе

Или иначе, заёмщики состоящие в браке или уже в разводе более ответственно подходять к выплатам по кредитам. Необходимо тщательнее проверять предоставленные документы о доходах, но очевидно, что клиенты с высоким достатком более безопасные. Наличие детей несёт определенные риски. И цель кредита на недвижимость почти всегда более взвещенна а покупка автомобиля несёт свои риски, как риск на дороге, так и импульсивный позыв  на преобретение.