<div class="alert alert-info"> <h2> Исследование надёжности заёмщиков </h2>

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
 
Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку. <div/>



 <strong><em><h2>  Шаг 1. Откроем файл с данными и изучим общую информацию    </em></strong></h2>

In [1]:
import pandas as pd
data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')
data.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


  <div class="alert alert-info"> просмотрел общие данные по таблице: обнаружил расхождения в столбцах 'days_unemployed' и 'total_income' - там указано меньше значений, чем в остальных столбцах - значит там есть пропуски. <div/>

 <strong><em><h2>  Шаг 2. Предобработка данных </em></strong></h2>


<div class="alert alert-info"> Проблемы:
    
* children:
    
 1) изменить значение 20 (изменить на 2)
    
 2) изменить значение -1 на 1
    
* days_employed:
    
 1) пропуски дополнить по медианной
    
 2) есть большое расхождение в цифрах - у людей с income_type == пенсионер цифры значительно превосходят остальные ( минимальное значение 300000+ в то время как у других от -24 до -18000) .  Поменять время пенсионеров на часы 
    
 3) поменять правила написания значений с минусом - убрать минус
    
* dob_years:
    
 1) аномальное значение dob_years = 0. Изменить на среднее относительно дней отработанных
    
* education:
    
 1) привести всё к нижним литерам
    
* gender:
    
 1) поменять артефакт XNA на M - всего один случай не повлияет на выборку
    
* total_income: 
    
 есть пропущенные значения, заполнить возрасту и высшему образованию <div/>








<div class="alert alert-info"> Children: 1) Замена неадекватных значений -1 на 1 и 20 на 2 <div/>

In [2]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [3]:
data.loc[data['children']== -1, 'children'] = 1
data.loc[data['children']== 20, 'children'] = 2


data['children'].value_counts()


0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


 <div class="alert alert-info"> В части строк в столбце days_employed значения отличаются - подозреваю,
что они отражены в часах, а не в днях, как требует столбец - приводим их в соответствие:  <div/>

In [5]:
data.loc[data['days_employed'] > 300000, 'days_employed'] /= 24
data.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи



 <div class="alert alert-info"> Далее поменяем значения со знаком минус на положительные - очевидно что это результат неверного ввода параметра. <div/>

In [6]:
data.loc[data['days_employed'] < 0, 'days_employed'] = -data['days_employed']
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи



 <div class="alert alert-info"> Далее заполняем пропущенные значения медианной переменной  <div/>

In [7]:
days_avg = data['days_employed'].median()
days_avg
data['days_employed'] = data['days_employed'].fillna(value = days_avg).astype('int')
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.479721,4393.983415,43.29338,0.817236,0.972544,0.080883,167422.3
std,0.755528,5131.54047,12.574584,0.548138,1.420324,0.272661,102971.6
min,0.0,24.0,0.0,0.0,0.0,0.0,20667.26
25%,0.0,1025.0,33.0,1.0,0.0,0.0,103053.2
50%,0.0,2194.0,42.0,1.0,0.0,0.0,145017.9
75%,1.0,4779.0,53.0,1.0,1.0,0.0,203435.1
max,5.0,18388.0,75.0,4.0,4.0,1.0,2265604.0


In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  int64  
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


 <div class="alert alert-info"> Изучим какого возраста соискатели кредита   <div/>

In [9]:
data['dob_years'].unique() 

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

 <div class="alert alert-info"> Удаляем обн
    аруженное аномальное значение 0     <div/>

In [10]:
median_years = data['dob_years'].dropna().median()
data=data.replace({'dob_years': {0: median_years}})

In [11]:
data['dob_years'].unique() 

array([42., 36., 33., 32., 53., 27., 43., 50., 35., 41., 40., 65., 54.,
       56., 26., 48., 24., 21., 57., 67., 28., 63., 62., 47., 34., 68.,
       25., 31., 30., 20., 49., 37., 45., 61., 64., 44., 52., 46., 23.,
       38., 39., 51., 59., 29., 60., 55., 58., 71., 22., 73., 66., 69.,
       19., 72., 70., 74., 75.])

 <div class="alert alert-info"> приводим все значения в столбце education к нижним литерам:     <div/>

In [12]:
data['education'] = data['education'].str.lower()
data['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

  <div class="alert alert-info"> Далее в столбце gender поменяем одно ошибочное значение XNA   <div/>

In [13]:
data.loc[data['gender']== 'XNA','gender'] = 'M'
#data.loc[data['children']== 20, 'children'] = 2
data['gender'].value_counts()


F    14236
M     7289
Name: gender, dtype: int64

 <div class="alert alert-info"> Заполняем total_income медианным методом по столбцу income_type     <div/>

In [14]:
print('Пропуски до:', data['total_income'].isna().sum())

for income_type in data['income_type'].unique():
    median = data.loc[data['income_type'] == income_type, 'total_income'].median()
    print(income_type,median)
    data.loc[(data['total_income'].isna())&(data['income_type'] == income_type), 'total_income'] = median

print('Пропуски после:', data['total_income'].isna().sum())

Пропуски до: 2174
сотрудник 142594.39684740017
пенсионер 118514.48641164352
компаньон 172357.95096577113
госслужащий 150447.9352830068
безработный 131339.7516762103
предприниматель 499163.1449470857
студент 98201.62531401133
в декрете 53829.13072905995
Пропуски после: 0


In [15]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  int64  
 2   dob_years         21525 non-null  float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


# Замена вещественных показателей на целочисленные. 

In [16]:
df2 = data.copy()
df2['dob_years'] = data['dob_years'].astype('int')
df2['total_income'] = data['total_income'].astype('int')

In [17]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int64 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int64 
 11  purpose           21525 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


In [18]:
df2.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


# Удаление дубликатов

 <div class="alert alert-info"> Для обработки выбрал начальный метод по поиску и удалению дубликатов, так как сочетание по всем параметрам из 12 столбцов является невероятным. <div/>

In [19]:
print('Количество полностью идентичных строк:',df2.duplicated().sum())

Количество полностью идентичных строк: 72


In [20]:
df2 = df2.drop_duplicates()
print('Количество полностью идентичных строк после удаления:',df2.duplicated().sum())

Количество полностью идентичных строк после удаления: 0


 <div class="alert alert-info"> На этапе предобработки привели все категории в столбце education к нижнему регистру, тем самым избавились от дубликатов с разным регистром.   <div/>

In [21]:
df2.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


# Лемматизация в столбце цели получения кредита

  <div class="alert alert-info"> Определим уникальные категории, по которым будем лемматизировать. <div/>

In [22]:
df2['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     767
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      



  <div class="alert alert-info"> 
    Выделил следующие категории: 
    
1) потребительский - сюда включаю кредит на свадьбу и ремонт в квартире
    
2) образование
    
3) автомобиль
    
4) коммерческая недвижимость - есть принципиальная разница между кредитование коммерческой недвижимости, в сделках с которыми участвует в основном предприниматель и жилой недвижимостью.
    
5) жилье. покупка квартиры или иной недвижимости с целью проживания ( личное пользование) <div/>

In [23]:
from pymystem3 import Mystem
m = Mystem()
##Делаем список 'purpose.unique()'
purpose_list = df2['purpose'].unique()
print(purpose_list)
print()
print()
lemmas = []
##Каждую строчку в 'purpose_list' лемматизируем, получаем список лемм и добавляем значения в пустой список 'lemms', проверяем
for i in purpose_list:
    lemma = m.lemmatize(i)
    lemmas.append(lemma)
#print(lemmas)
##Разбиваем на категории по леммам: "Свадьба", "автомобиль", "образование", "коммерческая недвижимость", 'ремонт', 'недвижимость' 
def purpose_change(purpose):
    lemmas_row = m.lemmatize(purpose)
    for i in lemmas_row:
        if 'автомоб' in i:
            return 'автомобиль'
        if 'недвижимость' in i:
            return  'недвижимость'
        if 'жил' in i:
            return  'недвижимость'
        if 'коммерч' in i:
            return  'коммерческая недвижимость'
        if 'свад' in i:
            return  'потребительский'
        if 'образов' in i:
            return 'образование'
        if 'ремонт' in i:
            return  'потребительский'
 
df2['purpose_def']= df2['purpose'].apply(purpose_change)        
df2.head(10)

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']




Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_def
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,потребительский
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,потребительский
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость


In [24]:
lemmas

[['покупка', ' ', 'жилье', '\n'],
 ['приобретение', ' ', 'автомобиль', '\n'],
 ['дополнительный', ' ', 'образование', '\n'],
 ['сыграть', ' ', 'свадьба', '\n'],
 ['операция', ' ', 'с', ' ', 'жилье', '\n'],
 ['образование', '\n'],
 ['на', ' ', 'проведение', ' ', 'свадьба', '\n'],
 ['покупка', ' ', 'жилье', ' ', 'для', ' ', 'семья', '\n'],
 ['покупка', ' ', 'недвижимость', '\n'],
 ['покупка', ' ', 'коммерческий', ' ', 'недвижимость', '\n'],
 ['покупка', ' ', 'жилой', ' ', 'недвижимость', '\n'],
 ['строительство', ' ', 'собственный', ' ', 'недвижимость', '\n'],
 ['недвижимость', '\n'],
 ['строительство', ' ', 'недвижимость', '\n'],
 ['на', ' ', 'покупка', ' ', 'подержать', ' ', 'автомобиль', '\n'],
 ['на', ' ', 'покупка', ' ', 'свой', ' ', 'автомобиль', '\n'],
 ['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n'],
 ['строительство', ' ', 'жилой', ' ', 'недвижимость', '\n'],
 ['жилье', '\n'],
 ['операция', ' ', 'со', ' ', 'свой', ' ', 'недвижимость', '\n'],
 ['автомобиль'

Проверяем, чтобы были категоризированы все строки и не осталось пропущенных.

In [25]:
df2['purpose_def'].isnull().sum()

0

# Категоризация


  <div class="alert alert-info"> 
 <b>Для начала определим категории:</b>
    
1) education
    
2) family_status
    
4) income_type
    
5) purpose_def
    

 <b> По цифровым показателям: </b>
    
1) days_employed 
    
2) dob_years
    
3) total income
    
4) children 
    <div/>


In [26]:
education_dict=df2[['education','education_id']]
education_dict = education_dict.drop_duplicates().reset_index(drop = True)
education_dict.sort_values(by = 'education_id', ascending = True)

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [27]:
family_dict=df2[['family_status','family_status_id']]
family_dict = family_dict.drop_duplicates().reset_index(drop = True)
family_dict.sort_values(by = 'family_status_id', ascending = True)

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [28]:
income_dict = df2[['income_type']].drop_duplicates().reset_index(drop = True)
income_dict

Unnamed: 0,income_type
0,сотрудник
1,пенсионер
2,компаньон
3,госслужащий
4,безработный
5,предприниматель
6,студент
7,в декрете


In [29]:
purpose_dict = df2[['purpose_def']].drop_duplicates().reset_index(drop = True)
purpose_dict

Unnamed: 0,purpose_def
0,недвижимость
1,автомобиль
2,образование
3,потребительский
4,коммерческая недвижимость



    

 <div class="alert alert-info"> 
    <b> 1) Days_employed категории:</b>
    
 1) от 24 до 730 дней - стажер
    
 2) 730 - 4797 - постоянный работник
    
 3) 4797 - ударни <div/>

In [30]:
def days_employed_group(days):
    
    if days <= 730:
        return 'стажер'
    if days <= 4797:
        return 'постоянный работник'
    return 'ударник' 
df2['days_employed_group'] = df2['days_employed'].apply(days_employed_group)
df2.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_def,days_employed_group
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,ударник
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,постоянный работник
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,ударник
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,постоянный работник
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,потребительский,ударник
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость,постоянный работник
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость,постоянный работник
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование,стажер
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,потребительский,ударник
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость,постоянный работник


In [31]:
days_employed_dict = df2[['days_employed_group']].drop_duplicates().reset_index(drop = True)
days_employed_dict

Unnamed: 0,days_employed_group
0,ударник
1,постоянный работник
2,стажер



    
    
    

 <div class="alert alert-info"> 
    <b> 2) Возраст dob_years</b>
    

 1) до 22 - молодые
    
 2) от 22 до 60 - рабочий возраст
    
 3) от 60 пенсионный <div/>

In [32]:
def dob_years_group(years):
    
    if years <= 22:
        return 'молодые'
    if years <= 60:
        return 'рабочий возраст'
    return 'пенсионный возраст' 
df2['dob_years_group'] = df2['dob_years'].apply(dob_years_group)
df2.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_def,days_employed_group,dob_years_group
21515,1,467,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486,заняться образованием,образование,стажер,рабочий возраст
21516,0,914,42,высшее,0,женат / замужем,0,F,компаньон,0,322807,покупка своего жилья,недвижимость,постоянный работник,рабочий возраст
21517,0,404,42,высшее,0,гражданский брак,1,F,компаньон,0,178059,на покупку своего автомобиля,автомобиль,стажер,рабочий возраст
21518,0,15583,59,среднее,1,женат / замужем,0,F,пенсионер,0,153864,сделка с автомобилем,автомобиль,ударник,рабочий возраст
21519,1,2351,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949,покупка коммерческой недвижимости,коммерческая недвижимость,постоянный работник,рабочий возраст
21520,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,недвижимость,постоянный работник,рабочий возраст
21521,0,14330,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,автомобиль,ударник,пенсионный возраст
21522,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,недвижимость,постоянный работник,рабочий возраст
21523,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,автомобиль,постоянный работник,рабочий возраст
21524,2,1984,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047,на покупку автомобиля,автомобиль,постоянный работник,рабочий возраст


In [33]:
dob_years_dict = df2[['dob_years_group']].drop_duplicates().reset_index(drop = True)
dob_years_dict

Unnamed: 0,dob_years_group
0,рабочий возраст
1,пенсионный возраст
2,молодые



    
    
    

 <div class="alert alert-info"> 
    <b> 3) Total income:</b>
    

 1) до 70000 - прожиточный минимум
 
 2) до 142594 - синий вортничок
 
 3) свыше - средний и высший класс
    
 <div/>
 

In [34]:
def income_group(money):
    
    if money <= 70000:
        return 'прожиточный минимум'
    if money <= 142594:
        return 'синий воротничок'
    return 'средний и высший класс' 
df2['income_group'] = df2['total_income'].apply(income_group)
df2.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_def,days_employed_group,dob_years_group,income_group
21515,1,467,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486,заняться образованием,образование,стажер,рабочий возраст,синий воротничок
21516,0,914,42,высшее,0,женат / замужем,0,F,компаньон,0,322807,покупка своего жилья,недвижимость,постоянный работник,рабочий возраст,средний и высший класс
21517,0,404,42,высшее,0,гражданский брак,1,F,компаньон,0,178059,на покупку своего автомобиля,автомобиль,стажер,рабочий возраст,средний и высший класс
21518,0,15583,59,среднее,1,женат / замужем,0,F,пенсионер,0,153864,сделка с автомобилем,автомобиль,ударник,рабочий возраст,средний и высший класс
21519,1,2351,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949,покупка коммерческой недвижимости,коммерческая недвижимость,постоянный работник,рабочий возраст,синий воротничок
21520,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,недвижимость,постоянный работник,рабочий возраст,средний и высший класс
21521,0,14330,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,автомобиль,ударник,пенсионный возраст,средний и высший класс
21522,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,недвижимость,постоянный работник,рабочий возраст,синий воротничок
21523,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,автомобиль,постоянный работник,рабочий возраст,средний и высший класс
21524,2,1984,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047,на покупку автомобиля,автомобиль,постоянный работник,рабочий возраст,синий воротничок


In [35]:
income_group_dict = df2[['income_group']].drop_duplicates().reset_index(drop = True)
income_group_dict

Unnamed: 0,income_group
0,средний и высший класс
1,синий воротничок
2,прожиточный минимум



    
    
    
    

 <div class="alert alert-info"> 
    <b> 4) Children:</b>
    

 1) 0 - без детей
 
 2) 1 - один ребенок
 
 3) от 2 до 3 - несколько детей
 
 4) больше 4 - многодетные
    
    
 <div/>
 

In [36]:
df2['children'].value_counts()

0    14090
1     4855
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

In [37]:
def child_status(child):
    
    if child == 0:
        return 'без детей'
    if child <= 2:
        return 'один-два ребенка'
    return 'многодетные' 
df2['child_status'] = df2['children'].apply(child_status)
df2.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_def,days_employed_group,dob_years_group,income_group,child_status
21515,1,467,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486,заняться образованием,образование,стажер,рабочий возраст,синий воротничок,один-два ребенка
21516,0,914,42,высшее,0,женат / замужем,0,F,компаньон,0,322807,покупка своего жилья,недвижимость,постоянный работник,рабочий возраст,средний и высший класс,без детей
21517,0,404,42,высшее,0,гражданский брак,1,F,компаньон,0,178059,на покупку своего автомобиля,автомобиль,стажер,рабочий возраст,средний и высший класс,без детей
21518,0,15583,59,среднее,1,женат / замужем,0,F,пенсионер,0,153864,сделка с автомобилем,автомобиль,ударник,рабочий возраст,средний и высший класс,без детей
21519,1,2351,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949,покупка коммерческой недвижимости,коммерческая недвижимость,постоянный работник,рабочий возраст,синий воротничок,один-два ребенка
21520,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,недвижимость,постоянный работник,рабочий возраст,средний и высший класс,один-два ребенка
21521,0,14330,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,автомобиль,ударник,пенсионный возраст,средний и высший класс,без детей
21522,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,недвижимость,постоянный работник,рабочий возраст,синий воротничок,один-два ребенка
21523,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,автомобиль,постоянный работник,рабочий возраст,средний и высший класс,многодетные
21524,2,1984,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047,на покупку автомобиля,автомобиль,постоянный работник,рабочий возраст,синий воротничок,один-два ребенка


In [38]:
child_dict = df2[['child_status']].drop_duplicates().reset_index(drop = True)
child_dict

Unnamed: 0,child_status
0,один-два ребенка
1,без детей
2,многодетные


# Ответы на вопросы

# Зависимость количества детей на возвратность кредитов

In [39]:
df2['debt'].loc[df2['debt'] == 1].sum()

1741

In [40]:
child_to_debt = df2.pivot_table(index = 'child_status',values = 'debt', aggfunc = ['sum','count']).fillna(0)
child_to_debt.columns = ['debt','total']
child_to_debt['ratio,%'] = child_to_debt['debt'] / child_to_debt['total'] * 100
child_to_debt = child_to_debt.sort_values(by = ['ratio,%'], ascending = False)
child_to_debt


Unnamed: 0_level_0,debt,total,"ratio,%"
child_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
один-два ребенка,647,6983,9.265359
многодетные,31,380,8.157895
без детей,1063,14090,7.544358




 <div class="alert alert-info"> 
   Исправнее всего платят кредит люди без детей, далее более обязательные в кредитах многодетные, но количество соискателей невелико, а люди с одним или двумя детьми допускают просрочку по кредиту почти на 2% больше      
    
    
    
    
 <div/>
 

# Зависимость семейного положения на возврат кредита в срок


In [41]:
family_to_debt = df2.pivot_table(index = family_dict,values = 'debt', aggfunc = ['sum','count']).fillna(0)
family_to_debt.columns = ['debt','total']
family_to_debt['ratio,%'] = family_to_debt['debt'] / family_to_debt['total'] * 100
family_to_debt = family_to_debt.sort_values(by = ['ratio,%'], ascending = False)
family_to_debt

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,total,"ratio,%"
family_status,family_status_id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Не женат / не замужем,4,274,2810,9.75089
гражданский брак,1,388,4150,9.349398
женат / замужем,0,931,12339,7.545182
в разводе,3,85,1195,7.112971
вдовец / вдова,2,63,959,6.569343




 <div class="alert alert-info"> 
  Неофициальные отношения, такие как гражданский брак или холостые люди допускают просрочку по кредиту на 2% больше.


    
    
 <div/>
 

# Зависимость дохода на возврат кредита в срок


In [42]:
income_to_debt = df2.pivot_table(index = income_group_dict,values = 'debt', aggfunc = ['sum','count']).fillna(0)
income_to_debt.columns = ['debt','total']
income_to_debt['ratio,%'] = income_to_debt['debt'] / income_to_debt['total'] * 100
income_to_debt = income_to_debt.sort_values(by = ['ratio,%'], ascending = False)
income_to_debt

Unnamed: 0_level_0,debt,total,"ratio,%"
income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
синий воротничок,809,9368,8.635781
средний и высший класс,831,10611,7.831496
прожиточный минимум,101,1474,6.852103


 

 <div class="alert alert-info"> 
Люди с малым достатком реже допускают просрочку чем работники с большей зарплатой. Люди высшего сегмента по зарплате дисциплинированнее и реже допускают просрочку.
Скорее всего соискатели кредита с малой зарплатой показывают лишь её малую часть, поэтому кредитная нагрузка для них невелика и они легко её оплачивают, в то время как синие воротнички живут "от зарплаты до зарплаты" и порой денег может не хватать. 


    
    
 <div/>

# Зависимость цели кредита на его возвратность.

In [43]:
purpose_to_debt = df2.pivot_table(index = purpose_dict,values = 'debt', aggfunc = ['sum','count']).fillna(0)
purpose_to_debt.columns = ['debt','total']
purpose_to_debt['ratio,%'] = purpose_to_debt['debt'] / purpose_to_debt['total'] * 100
purpose_to_debt = purpose_to_debt.sort_values(by = ['ratio,%'], ascending = False)
purpose_to_debt

Unnamed: 0_level_0,debt,total,"ratio,%"
purpose_def,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,403,4306,9.359034
образование,370,4013,9.220035
коммерческая недвижимость,99,1311,7.551487
потребительский,221,2930,7.542662
недвижимость,648,8893,7.28663


 

 <div class="alert alert-info"> 
Больше всего просрочек по кредиту на автомобиль и образование.
Исправнее всего платят за жилую недвижимость, а также коммерческую и потребительский кредит (свадьба, ремонт)
Видимо в случае просрочки кредита на автомобиль или образование сложнее наложить арест, поэтому люди меньше боятся пропустить платеж нежели за квартиру, которая является их единственным жильем.  


    
    
 <div/>

   <div class="alert alert-info">    <h3>Общий вывод:</h3> из полученных показателей можно сделать вывод, что люди, берущие в прочих жизненных аспектах большую ответственность на себя (многодетные семьи, люди с более высокооплачиваемой работой, люди берущие жилье в кредит) - также ответственно ведут себя и по отношению к выплате кредита. 
    В целом разбежка между категориями не является критичной и общая для рынка задержка по кредитам в размере 8% характерна для всех категорий граждан в выборке. </div>