# Исследование надежности заемщиков

### Данные

 - children — количество детей в семье
 - days_employed — общий трудовой стаж в днях
 - dob_years — возраст клиента в годах
 - education — уровень образования клиента
 - education_id — идентификатор уровня образования
 - family_status — семейное положение
 - family_status_id — идентификатор семейного положения
 - gender — пол клиента
 - income_type — тип занятости
 - debt — имел ли задолженность по возврату кредитов
 - total_income — ежемесячный доход
 - purpose — цель получения кредита

### Цель

Влияние различных факторов на факт погашения кредита в срок.

### Гипотезы

 - Количество детей влияет на факт погашения кредита в срок;
 - Семейное положение влияет на факт погашения кредита в срок;
 - Уровень дохода влияет на факт погашения кредита в срок;
 - Цели кредита влияют на факт погашения кредита в срок.

In [32]:
import pandas as pd

In [33]:
data = pd.read_csv('C:/Users/emmik/Downloads/data.csv')
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


### Этап 1. Предобработка данных

In [34]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [35]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [36]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

In [37]:
data['days_employed'] = data['days_employed'].abs()

In [38]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

In [39]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [40]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

In [41]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

In [42]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

In [43]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

In [44]:
data['total_income'] = data['total_income'].astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['total_income'] = data['total_income'].astype(int)


In [45]:
data['education'] = data['education'].str.lower()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['education'] = data['education'].str.lower()


In [46]:
data.duplicated().sum()

71

In [47]:
data = data.drop_duplicates()

In [48]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [49]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

In [50]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [51]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [52]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Этап 2. Исследование данных

In [53]:
for children in range(0,6):
    print(f'Детей в семье {children}: ', data[data['children'] == children]['children'].count())  

Детей в семье 0:  14091
Детей в семье 1:  4808
Детей в семье 2:  2052
Детей в семье 3:  330
Детей в семье 4:  41
Детей в семье 5:  9


In [54]:
for income in range(0,6):
    print(f'Детей в семье {income}: ', data[data['children'] == income]['total_income'].mean()) 

Детей в семье 0:  163052.0998509687
Детей в семье 1:  169194.9796173045
Детей в семье 2:  169746.97270955166
Детей в семье 3:  179460.30303030304
Детей в семье 4:  166360.70731707316
Детей в семье 5:  167336.88888888888


In [55]:
children_result = data.pivot_table(index = ['children'], values = 'debt', aggfunc = {'count','sum'})
children_result = children_result.rename(columns={'count':'total','sum':'indebted'})
children_result['share, %'] = round(children_result['indebted'] / children_result['total']*100,2)
children_result = children_result.sort_values(by='share, %', ascending=True)
display(children_result)

Unnamed: 0_level_0,total,indebted,"share, %"
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,9,0,0.0
0,14091,1063,7.54
3,330,27,8.18
1,4808,444,9.23
2,2052,194,9.45
4,41,4,9.76


**Вывод**: По полученным данным видно, что семья с 1, 2, 4 детьми имеют чаще просроченную задолженность, чем семьи без детей, а семья с 3 детьми незначительно меньше (чем 1,2,4 детьми), возможно, это связано с тем, что средний доход у семьи с 3 детьми больше, чем у всех остальных. Однако, разница в процентах не сильно отличается. Так же, исходя из количества данных по разным категориям можно увидеть, что людей с детьми значительно меньше, чем без детей. Небольшая зависимость есть, но требуется гораздо больше выборки.

In [56]:
status = ['Не женат / не замужем', 'в разводе', 'вдовец / вдова', 'гражданский брак', 'женат / замужем']

for income in status:
    print(f'{income}: ', data[data['family_status'] == income]['total_income'].mean())  

Не женат / не замужем:  166552.38447782546
в разводе:  167955.22708158116
вдовец / вдова:  142559.78969505784
гражданский брак:  164819.4092888244
женат / замужем:  166757.1225838023


In [57]:
for income in status:
    print(f'{income}: ', data[data['family_status'] == income]['total_income'].count())  

Не женат / не замужем:  2796
в разводе:  1189
вдовец / вдова:  951
гражданский брак:  4134
женат / замужем:  12261


In [58]:
data.loc[data['family_status'] == 'вдовец / вдова', 'family_status'] = 'в разводе'

In [59]:
family_result = data.pivot_table(index = ['family_status'], values = 'debt', aggfunc = {'count','sum'})
family_result = family_result.rename(columns={'count':'total','sum':'indebted'})
family_result['share, %'] = round(family_result['indebted'] / family_result['total']*100,2)
family_result = family_result.sort_values(by='share, %', ascending=True)
display(family_result)

Unnamed: 0_level_0,total,indebted,"share, %"
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в разводе,2140,147,6.87
женат / замужем,12261,927,7.56
гражданский брак,4134,385,9.31
Не женат / не замужем,2796,273,9.76


**Вывод**: По полученным данным видно, что люди не в браке и те, кто в гражданском браке имеют чаще просроченную задолженность, чем с браком и в разводе, хотя уровень их дохода незначительно различается. Вдовы и вдовцы меньше просрочивают, хотя средний доход их значительно ниже, чем у остальных, да и по количеству их меньше. Имеет смысл объединить вдовцов и людей в разводе. После данного объединения, мы видим, что люди в разводе больше уплачивают кредит в срок. 

In [60]:
for income in ['A','B','C','D','E']:
    print(f'{income}: ', data[data['total_income_category'] == income]['total_income_category'].count())   

A:  25
B:  5014
C:  15921
D:  349
E:  22


In [61]:
income_result = data.pivot_table(index = ['total_income_category'], values = 'debt', aggfunc = {'count','sum'})
income_result = income_result.rename(columns={'count':'total','sum':'indebted'})
income_result['share, %'] = round(income_result['indebted'] / income_result['total']*100,2)
income_result = income_result.sort_values(by='share, %', ascending=True)
display(income_result)

Unnamed: 0_level_0,total,indebted,"share, %"
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,349,21,6.02
B,5014,354,7.06
A,25,2,8.0
C,15921,1353,8.5
E,22,2,9.09


**Вывод**: По полученным данным мы видим, что люди с низким доходом (категория E) чаще выплачивают платежи в срок, однако их количество (22) очень маленькое, так же как и людей с очень высоким доходом (категория A). Люди со средним доходом (74 % от данных) составляют 84% уплаты кредита в срок. 

In [62]:
purpose_result = data.pivot_table(index = ['purpose_category'], values = 'debt', aggfunc = {'count','sum'})
purpose_result = purpose_result.rename(columns={'count':'total','sum':'indebted'})
purpose_result['share, %'] = round(purpose_result['indebted'] / purpose_result['total']*100,2)
purpose_result = purpose_result.sort_values(by='share, %', ascending=True)
display(purpose_result)

Unnamed: 0_level_0,total,indebted,"share, %"
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,10751,780,7.26
проведение свадьбы,2313,183,7.91
получение образования,3988,369,9.25
операции с автомобилем,4279,400,9.35


**Вывод:** По полученным данным можно сделать вывод, что люди, которые берут кредит на авто и образование чаще просрочивают задолженность, чем на недвижимость и свадьбу. Люди с кредитом на недвижимость уплачивают чаще кредит в срок. 

### Общий вывод

Было проведено исследование влияния различных факторов на факт погашения кредита в срок. Входные данные от банка - статистика платежеспособности клиента. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Перед проведением исследования были поставлены несколько гипотез:

1. Количество детей влияет на факт погашения кредита в срок;
2. Семейное положение влияет на факт погашения кредита в срок;
3. Уровень дохода влияет на факт погашения кредита в срок;
4. Цели кредита влияют на факт погашения кредита в срок.

В ходе исследования были выявлены взаямосвязи во всех поставленных гипотез:

Гипотеза 1. Количество детей влияет на факт погашения кредита в срок. 

Доля семей с просроченной задолженностью, имеющие от 1 до 4 детей составляет 7-8%, бездетные - 7,5%.

С увеличением количества детей можно увидеть увеличение просроченной задолженности, а люди, не имеющие детей, реже просрочивают оплату по кредиту. Это связано с тем, что семьи без детей меньше обременены финансовыми обязательствами. Однако, данных недостаточно, требуется больше данных о семьях с детьми для выборки.

Так же, хочется отметить, что можно включить сюда возраст детей. Возможно, дети уже живут отдельно от своих родителей и им не нужна финансовая поддержка от них.

Гипотеза 2. Семейное положение влияет на факт погашения кредита в срок. 

Так как у категории вдов и вдовцов было меньше выборки, то они были объединены в категорию людей в разводе, у которых доля людей с просроченной задолженностью была примерно одинакова.

Доля людей, находящиеся в разводе с просроченной задолженностью составляют 6,87%, в браке - 7,56 %, в гражданском браке и неженатые / незамужние - 9 %.  

Люди, находящиеся в гражданском браке и незамужние чаще имеют просроченную задолженность, чем люди в разводе. Так, в гражданском браке, возможно, люди ведут "раздельный бюджет", что увеличивает риск просрочить кредит, так же можно сказать о неженатых / незамужних.

Люди, находящиеся в браке, возможно, лучше планируют свой совместный-семейный бюджет и более ответственно относятся к своим финансовым обязательствам. Что касается людей в разводе, - возможно, они брали кредит, когда находились в браке, что заставляет бывших супруг оплачивать обязательство вдвоем или же они, как и вдовы/вдовцы, понимают, что будучи одними нужно полагаться только на себя, а значит ответственно относиться к своим обязательствам. 

Гипотеза 3. Данная гипотеза о влиянии уровня дохода и погашения кредита в срок частично подтверждена.

Исходя из результатов исследования, люди с низким доходом реже всего просрочивают задолженность, чем люди, имеющие более высокий доход. Однако, по этим данным нельзя сделать вывод, т.к. выборки очень мало. Так же, влияет тот факт, что в данных были допущены пропуски, что делает общую картину более неочевидной.

Гипотеза 4. Цели кредита влияют на факт погашения кредита в срок. 

Доля людей, оформляющие кредит на недвижимость и имеют просроченную задолженность составляют 7,26 %, на свадьбу - 7,91 %, на образование - 9,25 %, на автомобиль - 9,35 %.

Из этого следует, что меньше всего просроченная задолженность наблюдается у тех людей, кто берет кредит на недвижимость и на свадьбу, чем на образование и автомобиль. 

Подводя итог, были вынесены следующие рекомендации:

1. Специалистам, которые занимаются построением модели кредитного скоринга, можно использовать зависимости из второй и четвертой гипотезы (Семейное положение и цели кредита).

2. Необходимо собрать более полную выборку для повторной проверки первой и третьей гипотезы и включить возраст детей для более детального анализа. 