<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Предобработка данных</a></span></li><li><span><a href="#Исследовательский-анализ-данных" data-toc-modified-id="Исследовательский-анализ-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследовательский анализ данных</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Вывод</a></span></li></ul></div>

# Исследование надежности заемщиков

**Цель:** Определить влияет ли семейное положение и наличие детей на погашение кредита в срок.

**Задачи:** 
1. Проанализировать зависимость между количеством детей, семейным положением и количеством долгов по кредиту
2. Проследить зависимость между уровнем дохода и количеством просрочек по кредиту.
3. Выявить иные закономерности в данных.

**План:**
1. Предобработка данных.
2. Исследовательский анализ данных.
3. Выводы.

In [1]:
import pandas as pd
import numpy as np
import matplotlib as plt

In [2]:
try:
    data = pd.read_csv('path1.csv')
except:
    data = pd.read_csv('path2.csv')

Ознакомимся с данными, выведя первые 20 строк данных, а также всю информацию по файлу.

In [3]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


## Предобработка данных

In [4]:
def info_func(data):
    ''' Функция выводит всю информацию о колонках - их типы, количество пропусков, количество дубликатов'''
    
    #в первых 20 строках видно, что в датасете есть ячейки со строчными и заглавными буквами. Для облегчения поиска дубликатов
    #сразу приведем их к одному формату - lower
    for column in data.columns:
        if data[column].dtype == object:
            data[column] = data[column].str.lower()

    data.info()
    print('___________________')
    
    #подсчитаем пропуски
    def count_null(data):
        print(f'В датафрейме {len(data)} записей')
        print(' ')
        for element in data.columns:
            if data[element].isna().sum()>0:
                print(f'Количество пропусков в колонке {element} = {data[element].isna().sum()}'),
            else:
                print(f'Пропусков в колонке {element} нет')
    count_null(data)
    print('___________________')
    
    
    #проверим наличие полных дубликатов
    print(f'Количество полных дубликатов: {data.duplicated().sum()}')
                
info_func(data)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
___________________
В датафрейме 21525 записей
 
Пропусков в колонке children нет
Количество пропусков в колонке days_employed = 2174
Пропусков в колонке dob_years нет
Про

Для начала избавимся от полных дубликатов.

In [5]:
data = data.drop_duplicates()

Теперь посмотрим на распределение данных в колонках.

In [6]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21454.0,19351.0,21454.0,21454.0,21454.0,21454.0,19351.0
mean,0.539946,63046.497661,43.271231,0.817097,0.973898,0.08115,167422.3
std,1.383444,140827.311974,12.570822,0.548674,1.421567,0.273072,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Люди не могут работать отрицательное количество дней. Скорее всего, это механическая ошибка в процессе внесения информации, можно исправить это.

In [7]:
data['days_employed'] = data['days_employed'].abs()

In [28]:
print('Медианные значения дохода по категориям')

display(data.groupby('income_type')['days_employed'].agg('median'))

Медианные значения дохода по категориям


income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения - люди не могут работать 1000 лет (365000/365 = 1000).
Исправить такие значения сложно, поэтому оставим их как есть, тем более, что они нам не понадобятся для дальнейшего анализа.

В этой колонке хотелось бы обработать пропуски - заполнить их медианными значениями по группам. Но т.к. у нас присутствуют аномалии, нужно взглянуть на их распределение поближе.

In [29]:
print('Медианные значения дохода в категории "безработные"')

data[data['income_type'] == "безработный"]['days_employed'].describe()

Медианные значения дохода в категории "безработные"


count         2.000000
mean     366413.652744
std       40855.478519
min      337524.466835
25%      351969.059790
50%      366413.652744
75%      380858.245699
max      395302.838654
Name: days_employed, dtype: float64

In [31]:
print('Медианные значения дохода в категории "пенсионер"')

data[data['income_type'] == "пенсионер"]['days_employed'].describe()

Медианные значения дохода в категории "пенсионер"


count      3812.000000
mean     365044.002283
std       19994.725728
min      328728.720605
25%      348662.115067
50%      365213.306266
75%      380895.186412
max      401755.400475
Name: days_employed, dtype: float64

Безработных клиентов всего 2. Пенсионеров больше, но все значения в количестве отработанных ими дней являются аномалиями - как уже сказано выше, человек не может работать 1000 лет. Поэтому мы можем заполнить пропуски медианами, не боясь еще сильнее исказить данные.

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

Теперь обработаем пропуски в колонке total_income. Логично заполнить их также медианным значением по каждой категории клиентов, это не исказит данные в процессе дальнейшей обработки.

In [12]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

Также нужно обратить внимание на аномальные значения в количестве детей: -1 и 20. Проверим все уникальные значения и избавимся от аномалий.

In [13]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [14]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

In [15]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

Проконтролируем все ли пропуски мы обработали.

In [16]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21331 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21331 non-null  int64  
 1   days_employed     21331 non-null  float64
 2   dob_years         21331 non-null  int64  
 3   education         21331 non-null  object 
 4   education_id      21331 non-null  int64  
 5   family_status     21331 non-null  object 
 6   family_status_id  21331 non-null  int64  
 7   gender            21331 non-null  object 
 8   income_type       21331 non-null  object 
 9   debt              21331 non-null  int64  
 10  total_income      21331 non-null  float64
 11  purpose           21331 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


На доход удобнее смотреть, когда он приведен к целочисленному формату. Приведем значения к нему.

In [17]:
data['total_income'] = data['total_income'].astype(int)

Для целей дальнейшего анализа удобнее ввести категории клиентов по размеру их дохода, поэтому также введем категории.

In [18]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [19]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

Теперь посмотрим на цели кредитования. Возможно, в них также лучше ввести категории.

In [20]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Действительно, у нас много уникальных значений целей кредита, которые указали заемщики. Но некоторые из них можно отнести к отдельным категориям.

In [21]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [22]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

In [23]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926.185831,27,высшее,0,гражданский брак,1,m,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879.202052,43,высшее,0,женат / замужем,0,f,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152.779569,50,среднее,1,женат / замужем,0,m,сотрудник,0,135823,образование,C,получение образования
8,2,6929.865299,35,высшее,0,гражданский брак,1,f,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,m,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


Данные обработаны и готовы к анализу.

## Исследовательский анализ данных

Посмотрим на зависимость количества задолженностей по кредитам от наличия и количества детей у заемщиков.

In [24]:
def share_debt(x):
    share = np.mean(x)
    return '{:.2%}'.format(share)

children_debt=data.groupby('children')['debt'].agg(['sum','count',share_debt])

children_debt=children_debt.rename(columns={'sum':'Количество долгов',
                                            'count':'Количество выданных кредитов',
                                            'share_debt':'Доля задолженностей'})

display(children_debt)

Unnamed: 0_level_0,Количество долгов,Количество выданных кредитов,Доля задолженностей
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1063,14091,7.54%
1,444,4808,9.23%
2,194,2052,9.45%
3,27,330,8.18%
4,4,41,9.76%
5,0,9,0.00%


Посмотрим на аналогичную зависимость, но уже с семейным положением заемщиков.

In [25]:
print('Зависимость количества долгов по кредитам от семейного положения')

marital_debt=data.groupby('family_status')['debt'].agg(['sum','count',share_debt])

marital_debt=marital_debt.rename(columns={'sum':'Количество долгов',
                                            'count':'Количество выданных кредитов',
                                            'share_debt':'Доля задолженностей'})

display(marital_debt)

print('_____________________')
print(' ')
print('Сводная таблица корреляции количества детей и семейного положения')

marital_debt_pivot=data.pivot_table(index='children', columns='family_status', values='debt', aggfunc=[share_debt,'count'])
display(marital_debt_pivot)

Зависимость количества долгов по кредитам от семейного положения


Unnamed: 0_level_0,Количество долгов,Количество выданных кредитов,Доля задолженностей
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в разводе,84,1189,7.06%
вдовец / вдова,63,951,6.62%
гражданский брак,385,4134,9.31%
женат / замужем,927,12261,7.56%
не женат / не замужем,273,2796,9.76%


_____________________
 
Сводная таблица корреляции количества детей и семейного положения


Unnamed: 0_level_0,share_debt,share_debt,share_debt,share_debt,share_debt,count,count,count,count,count
family_status,в разводе,вдовец / вдова,гражданский брак,женат / замужем,не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем,не женат / не замужем
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
0,7.02%,6.26%,8.39%,6.91%,9.28%,784.0,847.0,2730.0,7468.0,2262.0
1,6.73%,9.09%,11.86%,8.27%,11.58%,312.0,77.0,995.0,2975.0,449.0
2,8.64%,15.00%,8.75%,9.46%,12.00%,81.0,20.0,343.0,1533.0,75.0
3,9.09%,0.00%,14.29%,6.83%,12.50%,11.0,6.0,56.0,249.0,8.0
4,0.00%,0.00%,0.00%,10.34%,50.00%,1.0,1.0,8.0,29.0,2.0
5,,,0.00%,0.00%,,,,2.0,7.0,


**Вывод:** 
Наибольшее количество долгов имеют люди, не состоящие в браке или состоящие в гражданском браке. Самыми дисциплинированными заемщиками являются вдовцы.
Если расширить анализ и включить в него детей, то окажется, что наиболее дисциплинированными являются бездетные семейные пары и вдовцы. Наибольший процент задолженностей по кредиту у несостоящих в официальном браке людей с одним и более.

Проверим распределение долгов по категориям дохода.
Напомним как мы категоризовали клиентов по группам по уровню дохода.

Легенда категорий дохода: \
0–30000 — 'E'; \
30001–50000 — 'D'; \
50001–200000 — 'C'; \
200001–1000000 — 'B'; \
1000001 и выше — 'A' 

In [26]:
total_income_debt=data.groupby('total_income_category')['debt'].agg(['sum','count',share_debt])
total_income_debt=total_income_debt.rename(columns={'sum':'Количество долгов',
                                            'count':'Количество выданных кредитов',
                                            'share_debt':'Доля задолженностей'})

income_pivot=data.pivot_table(index='children', columns='total_income_category', values='debt', aggfunc=[share_debt,'count'])


display(total_income_debt)
print(' ')
print('__________________')
print(' ')
print('Относительное количество долгов vs абсолютное количество кредитов')

display(income_pivot)

Unnamed: 0_level_0,Количество долгов,Количество выданных кредитов,Доля задолженностей
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,2,25,8.00%
B,354,5014,7.06%
C,1353,15921,8.50%
D,21,349,6.02%
E,2,22,9.09%


 
__________________
 
Относительное количество долгов vs абсолютное количество кредитов


Unnamed: 0_level_0,share_debt,share_debt,share_debt,share_debt,share_debt,count,count,count,count,count
total_income_category,A,B,C,D,E,A,B,C,D,E
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
0,8.33%,6.78%,7.83%,4.94%,11.76%,12.0,3246.0,10573.0,243.0,17.0
1,11.11%,7.54%,9.85%,6.06%,0.00%,9.0,1167.0,3562.0,66.0,4.0
2,0.00%,8.17%,9.85%,11.76%,0.00%,3.0,502.0,1512.0,34.0,1.0
3,0.00%,4.55%,9.32%,20.00%,,1.0,88.0,236.0,5.0,
4,,14.29%,8.82%,,,,7.0,34.0,,
5,,0.00%,0.00%,0.00%,,,4.0,4.0,1.0,


**Вывод:** Большую часть должников составляют люди со средним доходом - от 50 до 200 тыс руб. Но они и составляют большую часть кредитополучателей. В данном смысле логичнее исследовать данный показатель в разрезе % долгов от общего количества кредитов в рамках каждой группы. 
Выведя отношение долгов к общему количеству кредитов в каждой группе, можно сказать, что доход не сильно влияет на количество непогашенных вовремя кредитов. Тем не менее, больший процент задолженностей приходится на группу с минимальным доходом, а наименьший процент приходится на группу с доходом ниже среднего.

Посмотрим влияет ли цель кредита на количество задолженностей по кредитам.

In [27]:
purpose_debt=data.groupby('purpose_category')['debt'].agg(['sum','count',share_debt])
purpose_debt=purpose_debt.rename(columns={'sum':'Количество долгов',
                                            'count':'Количество выданных кредитов',
                                            'share_debt':'Доля задолженностей'})
display(purpose_debt)

Unnamed: 0_level_0,Количество долгов,Количество выданных кредитов,Доля задолженностей
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,400,4279,9.35%
операции с недвижимостью,780,10751,7.26%
получение образования,369,3988,9.25%
проведение свадьбы,183,2313,7.91%


**Вывод:** Чаще всего долги по кредитам образовываются в результате сделок с автомобилями и при получении кредита на образование. Наиболее дисциплинированными являются заемщики под операции с недвижимостью.

## Вывод

Семейное положение влияет на факт погашения кредита в срок.
Так, люди, не состоявшие никогда в зарегистрированном браке, более склонны к задержке выплат по кредитам. При этом они составляют вторую по численности группу среди всех заемщиков.
Чаще всего кредиты берут семейные люди без детей, и они же показывают хорошую статистику по уплате кредитных платежей в срок.

Можно сказать, что наличие детей также напрямую влияет на факт своевременного погашения кредита. Люди, не имеющие детей более дисциплинированы в своевременной уплате по кредитам. С увеличением количества детей в семье показатель задолженности по кредитам также склонен расти.
Здесь также интересно отметить, что вовремя уплачивать кредит склонны бездетные люди с доходом выше среднего, а также люди с доходом ниже среднего, имеющие одного ребенка или не имеющие детей.