# Исследование надежности заемщиков.

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели *кредитного скоринга* — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Обзор данных

In [92]:
#Импорт библиотек
import pandas as pd


In [93]:
#Прочитаем файл и сохраним данные в переменной df.
df = pd.read_csv('/datasets/data.csv')
df.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [94]:
df.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


Описание данных:
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

In [95]:
#Посмотрим общую информацию о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [96]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


### Шаг 2.1 Заполнение пропусков

Подсчитаем, сколько в таблице пропущенных значений.

In [97]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В двух столбцах есть пропущенные значения, а именно в:
- days_employed
- total_income


In [98]:
#Проверим, какую долю оставляют пропущенные значения в каждом из столбцов с пропусками
print(2174/df['days_employed'].count()*100)
print(2174/df['total_income'].count()*100)

11.234561521368406
11.234561521368406


В каждом из столбцов с пропусками доля пропущенных значений составляет 11%

Среди возможных причин отсутствия данных в этих столбцах являются:
- Отсутствие работы, а соответсвенно и общего трудового стажа и ежемесячного дохода
- Отсутствие самих данных от клиентов
- Человеческий фактор или технические неполадки при заполнении базы данных.


Для замены пропущенных значений мы будем использовать медиану, так как среднее значение некорректно характеризует данные, когда некоторые значения сильно выделяются среди большинства.

In [99]:
days_employed_median = df['days_employed'].median()
total_income_median = df['total_income'].median()
df['days_employed'] = df['days_employed'].fillna(days_employed_median)
df['total_income'] = df['total_income'].fillna(total_income_median) 


In [100]:
#Проверем таблицу на пропуски ещё раз.
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Пропусков не осталось.

### Шаг 2.2 Проверка данных на аномалии и исправления.

Проведя анализ таблицы на наличие аномалий и исправлений я заметил:
- в столбце **days_employed** есть отрицательное количество дней трудового стажа, а так же явно завышенное количество дней стажа
- в столбце **education** используются разный регистр
- отрицательное и завышенное значение в столбце **children**

In [101]:
data_grouped = df.groupby('income_type').agg({'days_employed':['count', 'mean']})

data_grouped

Unnamed: 0_level_0,days_employed,days_employed
Unnamed: 0_level_1,count,mean
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2
безработный,2,366413.652744
в декрете,1,-3296.759962
госслужащий,1459,-3178.588112
компаньон,5085,-2020.798209
пенсионер,3856,325780.609113
предприниматель,2,-862.108806
сотрудник,11119,-2214.883216
студент,1,-578.751554


Переведём отрицательные значения в столбце **days_employed** в положительные

In [102]:
df['days_employed'] = df['days_employed'].abs()


Максимальные значения в столбце отработанных дней являются ошибкой. 
Для того, что бы исправить эти значения напишем функцию, которая будет искать и заменять эти данные на медиану стажа по данному возрасту

In [103]:
def err_days_employed(row):
    if row['days_employed'] > (row['dob_years'] - 16) * 365:
        if df[df['dob_years'] == row['dob_years']]['days_employed'].median() < (row['dob_years'] - 16) * 365:
            return df[df['dob_years'] == row['dob_years']]['days_employed'].median()
        else: 
            return (row['dob_years'] - 16) * 365
    else:
        return row['days_employed']
df['days_employed'] = df.apply(err_days_employed, axis=1)

Приведём значения в столбце **education** к нижнему регистру.

In [104]:
df['education'] = df['education'].str.lower()

Исправим значения в столбце **children**

In [105]:
df['children'].value_counts()
#В столбце с количеством детей присутствует аномальное значение в -1 и 20
# заменим -1 на 1, а 20 заменим на медианное значение, так как мы не знаем точно какое значение хотели внести.
df['children'] = df['children'].replace(-1, 1)
children_median = df.loc[df.loc[:, 'children'] != 20]['children'].median()
df['children'] = df['children'].replace(20, children_median)

In [106]:
pd.DataFrame({'Кол-во заёмщиков по кол-ву детей':df['children'].value_counts()})

Unnamed: 0,Кол-во заёмщиков по кол-ву детей
0.0,14225
1.0,4865
2.0,2055
3.0,330
4.0,41
5.0,9


### Шаг 2.3. Изменение типов данных.

Заменим вещественный тип данных в столбце **total_income** на целочисленный.

In [107]:
df['total_income'] = df['total_income'].astype('int')

### Шаг 2.4. Удаление дубликатов.

In [108]:
print(df.duplicated().sum()) 

71


In [109]:
df = df.drop_duplicates().reset_index(drop=True)

In [110]:
print(df.duplicated().sum()) 

0


### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим два новых датафрейма.

In [111]:
#каждому уникальному значению из education соответствует уникальное значение education_id
#каждому уникальному значению из family_status соответствует уникальное значение family_status_id
education_dic = df[['education', 'education_id']]
family_dic = df[['family_status', 'family_status_id']]



Удалим из исходного датафрейма столбцы **education** и **family_status**, оставив только их идентификаторы: **education_id** и **family_status_id**.

In [112]:
df = df.drop(labels='education', axis=1)
df = df.drop(labels='family_status', axis=1)



### Шаг 2.6. Категоризация дохода.

На основании диапазонов создадим новый столбец **total_income_category**

In [113]:
#Напишем функцию
def total_inc(row):
    tot_inc = row['total_income']
    
    
    if tot_inc <= 30000:
        return 'E'
    if tot_inc <= 50000:
        return 'D'
    if tot_inc <= 200000: 
        return 'C'
    if tot_inc <= 1000000:
        return 'B'
    if tot_inc >= 1000001:
        return 'A'
            
    
    


row_values = [17000]
row_columns = ['total_income']
row = pd.Series(data=row_values, index=row_columns)  
df['total_income_category'] = df.apply(total_inc, axis=1)


### Шаг 2.7. Категоризация целей кредита.

Создадим функцию 

In [114]:
#найдём уникальные значение в столбце purpose 
unique_purposes = df['purpose'].value_counts().index.tolist()
print(df['purpose'].value_counts().to_frame())


                                        purpose
свадьба                                     791
на проведение свадьбы                       768
сыграть свадьбу                             765
операции с недвижимостью                    675
покупка коммерческой недвижимости           661
операции с жильем                           652
покупка жилья для сдачи                     651
операции с коммерческой недвижимостью       650
покупка жилья                               646
жилье                                       646
покупка жилья для семьи                     638
строительство собственной недвижимости      635
недвижимость                                633
операции со своей недвижимостью             627
строительство жилой недвижимости            624
покупка недвижимости                        621
покупка своего жилья                        620
строительство недвижимости                  619
ремонт жилью                                607
покупка жилой недвижимости              

In [131]:
estate = ['недвижим', 'жиль']
wedding = ['свадьб']
auto = ['автомоб']
education = ['образова']

df['purpose_category'] = 0
def category_cred(word_list, category):
  join = '|'.join(word_list)
  index = df[df['purpose'].str.lower().str.contains(join)].index.to_list()
  for i in index:
    df.loc[i, 'purpose_category'] = category
  return df


category_cred(wedding, 'проведение свадьбы')
category_cred(estate, 'операции с недвижимостью')
category_cred(auto, 'операции с автомобилем')
category_cred(education, 'получение образования')



Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1.0,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1.0,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0.0,5623.422610,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3.0,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0.0,2857.676846,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1.0,4529.316663,43,1,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21450,0.0,18615.000000,67,1,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем
21451,1.0,2113.346888,38,1,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21452,3.0,3112.481705,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем


In [132]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1.0,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1.0,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0.0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3.0,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0.0,2857.676846,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0.0,926.185831,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0.0,2879.202052,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0.0,152.779569,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2.0,6929.865299,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0.0,2188.756445,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


### Ответы на вопросы.

**Есть ли зависимость между количеством детей и возвратом кредита в срок?**

In [118]:
df.groupby('children')['debt'].mean().to_frame().sort_values(by='debt') 


Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
5.0,0.0
0.0,0.075598
3.0,0.081818
1.0,0.091658
2.0,0.094542
4.0,0.097561


Бездетные люди как правило реже просрочивают выплаты по кредиту, чем люди с детьми. В то же время вероятность просрочивания кредита увеличивается пропорцианально количеству детей в семье. Хотя заемщики с 3 детьми реже просрочивают выплаты, чем люди с 1 и более детьми.

**Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [91]:
#print(df['family_status_id'].value_counts()) 
#df.groupby('family_status_id')['debt'].mean().to_frame().sort_values(by='debt')


print(family_dic.value_counts()) 
df.groupby('family_status_id')['debt'].mean().to_frame().sort_values(by='debt') 

family_status          family_status_id
женат / замужем        0                   12339
гражданский брак       1                    4151
Не женат / не замужем  4                    2810
в разводе              3                    1195
вдовец / вдова         2                     959
dtype: int64


Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
2,0.065693
3,0.07113
0,0.075452
1,0.093471
4,0.097509


Исходя из результатов исследования люди, которые не состоят в браке или не были в нём, более склонны к просрочеванию выплат. Но в то же время те кто овдовел или разведён платят чаще, чем люди в браке.
 

**Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [124]:
df.groupby('total_income_category')['debt'].mean().to_frame().sort_values(by='debt') 

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
D,0.06
B,0.070621
A,0.08
C,0.084915
E,0.090909


Клиенты, чей доход находится в диапозоне между 30-50т. с большей вероятность выплатят кредит в срок. Но в тоже время люди чей доход менее 30т. с большей вероятность просрочат выплаты. Так же категория клиентов с доходом категории **C** склонные к просрочиванию выплат по кредиту.

**Как разные цели кредита влияют на его возврат в срок?**

In [133]:
df.groupby('purpose_category')['debt'].mean().to_frame().sort_values(by='debt') 

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с недвижимостью,0.072334
проведение свадьбы,0.080034
получение образования,0.0922
операции с автомобилем,0.09359


Исходя из полученных данных, клиенты берущие кредит на недвижимость, чаще остальных выплачивают кредит в срок. Клиенты которые берут кредит на автомобиль или образование с большей вероятность просрочат платеж. 

## Общий вывод:

Проведя исследование надёжности заёмщиков мы пришли к выводу, что вероятность выплат кредита в срок увеличивают:
-  Количество детей.
-  Семейное положение заёмщика.
-  Уровень дохода.
-  Цели кредита.

С большей вероятностью платежей по кредиту в срок подверженны клиенты без детей, состоящие в браке, зарабатывающие **D** и **B** категории в месяц и приобретающие недвижимость.
Так же учитывая исследование, стоит обратить внимание на следующие моменты:
- Наличие и количество детей повышает риск невыплат по кредиту
- Люди официально состоящие в браке более ответственны, так же как и овдовевшие или разведенные
- Люди с доходом выше среднего с большей вероятностью выплатят кредит в срок.
- Кредиты на недвижимость являются наиболее безопасными в плане выплат в срок.