## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

Импортируем библиотеку. Считываем данные файла.

In [1]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')

Получение первых 10 строк таблицы.

In [2]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Смотрим на общие свойства таблицы data

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


# Вывод

Таблица представляет из себя данные о заемщиках. Каждая строка содержит информацию по определенным, важным для банка параметрам. При изучении таблицы можно увидеть несколько "проблемных" моментов с точки зрения дальнейшей обработки данных: 

1. Названия столбцов не всегда репрезентативно отражают содержащиеся в них данные; 
2. Количество значений в стоблцах различно - имеются  пропуски;
3. Столбец "Education" содержит строки различного регистра; 
4. Столбец "days_employed" содержит отрицательные значения;
5. Стоблы "days_employed", "total_income" имеют тип float64, что возможно избыточно;
6. Предположительно, дополнительно могут быть полезны столбцы "income_type_Id", "purpose_id".
7. Ошибки в данных. 1. чилдрен. 2. стаж. 3. пол 4. стемминг для последнего поля нужен

Столбцы наиболее важные для решения задачи -  children, debt, family_status.


### Шаг 2. Предобработка данных

### Обработка пропусков

Проверим данные на наличие пропусков.

In [4]:
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Видно, что общее строк с пропущенными по столбцам 'days_employed', 'total_income' значениями составляет около 10% от общего кол-ва строк. Таким образом мы не можем просто удалить строки в которых присутствуют пропущенные значения.

Столбцы 'days_employed' и 'total_income' содержат количественные данные. Можно воспользоваться средними значениями для заполнения пропусков.

В столбце 'days_employed' присутствуют "отрицательные" значения. Очевидно, что данные в этом столбце не могут быть отрицательными, поэтому можно предположить, что скорее всего это ошибка ввода данных. В любом случае, лучше для начала уточнить у владельцев данных или разработчиков причины подобной записи. 

Но поскольку в рамках задания такой возможности нет, то можно попробовать посмотреть на данные из столбца "income_type", которые в свою очередь могут коррелировать с данными из столбца 'days_employed'. 

Для начала, проверим какие значения могут содержаться в 'income_type'.

In [5]:
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

Если наше предположение верно, то по логике у группы "пенсионер" должно быть наибольшее значение, а у групп "студент" минимальное значение столбца 'days_employed'. Проверим. Для этого сгруппируем данные по типу дохода и вычислим среднее.

In [6]:
data.groupby('income_type').median()

Unnamed: 0_level_0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
безработный,0.5,366413.652744,38.0,0.5,0.5,0.5,131339.751676
в декрете,2.0,-3296.759962,39.0,1.0,0.0,1.0,53829.130729
госслужащий,0.0,-2689.368353,40.0,1.0,0.0,0.0,150447.935283
компаньон,0.0,-1547.382223,39.0,1.0,0.0,0.0,172357.950966
пенсионер,0.0,365213.306266,60.0,1.0,0.0,0.0,118514.486412
предприниматель,0.0,-520.848083,42.5,0.0,0.5,0.0,499163.144947
сотрудник,0.0,-1574.202821,39.0,1.0,0.0,0.0,142594.396847
студент,0.0,-578.751554,22.0,0.0,4.0,0.0,98201.625314


Видно, что по модулю значения у пенсионеров и безработных - наибольшие. У студентов - наименьшее. Дополнительно проверим также 

In [7]:
data['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

Наиболее репрезентативные группы - первые четыре. Если вернуться к сгруппированным значениям, то средний стаж совпадает с типом дохода. Это дает нам возможность утверждать, что наше предположение о корреляциия данных верно. Следовательно отрицательные значения в столбце  "days_employed" скорее всего являются ошибкой ввода и мы просто можем взять по модулю.

In [8]:
data['days_employed'] = data['days_employed'].abs()
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Теперь найдем для столбца 'days_employed' среднее арифмитическое.

In [9]:
days_employed_avg = data['days_employed'].mean()
days_employed_avg

66914.72890682236

Заполним значением переменной days_employed_avg пропущенные значения в соответствующем столбце.

In [10]:
data['days_employed'] = data['days_employed'].fillna(value= days_employed_avg)

Для столбца 'total_income' используем медиану.

In [11]:
total_income_avg = data['total_income'].median()
total_income_avg

145017.93753253992

Заполним значением переменной total_income_avg пропущенные значения в соответствующем столбце.

In [12]:
data['total_income'] = data['total_income'].fillna(value= total_income_avg)

Еще раз проверим таблицу на предмет пропущенных значений.

In [13]:
data.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Вывод

Заполненные пропущенные значения позволят провести анализ точнее. Мы не просто их удалили, поскольку они важны для формирования корректных выводов в дальнейшем, но заменили на характерные значения. Причиной пропусков предположительно могло стать нежелание клиентов предоставлять подобные данные. Заполнен же отсутствующие значения NaN совпадающим с общим типом значений соответствующих столбцов (float).

### Замена типа данных

Заменим тип данных "days_employed" на целочисленные

In [14]:
data['days_employed'] = data['days_employed'].astype(int)

Аналогичную операцию осуществим и для "total_income" 

In [15]:
data['total_income'] = data['total_income'].astype(int)

Проверим

In [16]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Вывод

Замена осуществлена. Это поможет с вычислениями в дальнейшем.


### Обработка дубликатов

Проверим данные на наличие дубликатов. Но перед этим, переведем значения в столбце "education" в единый регистр

In [17]:
data['education'] = data['education'].str.lower()
data['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Ищем дубликаты

In [18]:
data.duplicated().sum()

71

Всего 71. Кажется, что это не столь большое число, чтобы его можно было считать проблемой. Возможно ошибочно повторный ввод данных. Удалим имеющиеся дубликаты из таблицы

In [19]:
data = data.drop_duplicates().reset_index(drop=True)
data.duplicated().sum()

0

### Вывод

Дубликаты удалены. Продолжим



### Лемматизация

Похоже столбец содержащий информацию о цели кредита, единственный для которого можте быть преминим стемминг/лемматизация. Посмотрим на его содержание

In [20]:
data['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
жилье                                     646
покупка жилья                             646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Заметно, что формулировки для одних и тех же целей разнятся. Это затруднит дальнейшую обработку. На первый взгляд выделяются несколько категорий, а именно "орагнизация свадьбы", "операции с недвижимостью", "приобритение автомобиля" и "образование". Проверим 

In [21]:
from pymystem3 import Mystem
m = Mystem()
from collections import Counter
words = list(data['purpose'])
words = str(words)
lemmas = m.lemmatize(words)
Counter(lemmas)

Counter({"['": 1,
         'покупка': 5897,
         ' ': 33570,
         'жилье': 4460,
         "', '": 21453,
         'приобретение': 461,
         'автомобиль': 4306,
         'дополнительный': 906,
         'образование': 4013,
         'сыграть': 765,
         'свадьба': 2324,
         'операция': 2604,
         'с': 2918,
         'на': 2222,
         'проведение': 768,
         'для': 1289,
         'семья': 638,
         'недвижимость': 6351,
         'коммерческий': 1311,
         'жилой': 1230,
         'строительство': 1878,
         'собственный': 635,
         'подержать': 853,
         'свой': 2230,
         'со': 627,
         'заниматься': 904,
         'сделка': 941,
         'получение': 1314,
         'высокий': 1374,
         'подержанный': 111,
         'профильный': 436,
         'сдача': 651,
         'ремонт': 607,
         "']\n": 1})

Предположение относительно наиболее попуярных категорий подтверждается.

### Вывод

Похоже у нас выявились основные 4 категории по которым можно разделить данные в столбце "цель кредита". Выявленные основы для них - "свадьба", "недвижимость"/"жилье", "образование", "автомобиль". 



### Категоризация данных

Исопльзуем найденные основы слов для сформулированных нами категорий цели кредита при написания функции. 

In [22]:
def to_lemmas(purpose):
    lemmas = m.lemmatize(purpose)
    if 'жилье' in lemmas:
        return 'недвижимость'
    elif 'свадьба' in lemmas:
        return 'свадьба'
    elif 'автомобиль' in lemmas:
        return 'автомобиль'
    elif 'недвижимость' in lemmas:
        return 'недвижимость'
    elif 'образование' in lemmas:
        return 'образование'

Создадим новый столбец в таблица на основе столбца "purpose" и проверим то что получилось

In [23]:
data['purpose_id'] = data['purpose'].apply(to_lemmas)

data['purpose_id'].value_counts()

недвижимость    10811
автомобиль       4306
образование      4013
свадьба          2324
Name: purpose_id, dtype: int64

Похоже операции с недвижимостью наиболее поплуярная причина для кредита. Заодно посотрим на всякий случай как это выглядит в таблице

In [24]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_id
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость


Также, для проверки гипотез нам понадобится категоризация заемщиков по наличию детей. Посмотрим на значения содержащиеся в столбце 'children'

In [25]:
data['children'].value_counts()

 0     14091
 1      4808
 2      2052
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Видно, что в значениях есть ошибки. Очевидно значение "-1" неверное. Также вызывает сомнение значение "20". Доля данных с этими значениями по отдельности порядка 0.2 - 0.3%, что не позволяет просто исключить их. 
Относительно значения "-1" можно предположить, что это результат ошибки ввода данных по аналоги со значениями из столбца "трудовой стаж" и заменить эти значения на "1"

In [26]:
data['children'] = data['children'].replace(-1, 1)

Что касается значений "20" в этом столбце, то здесь нам придется сделать допущение о том, что это также ошибка ввода и вероятнее всего имелось ввиду "2". Безусловно это следует уточнить и уведомить о принятии подобного допущения. Заменим эти значения аналогичным способом и проверим, что получилось

In [27]:
data['children'] = data['children'].replace(20, 2)
data['children'].value_counts()

0    14091
1     4855
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

Сумму значений по измененным столбцам сопадают, значит можно продолжить. Создадим категоризирующую фукнцию и применим ее к столбцу "children" для создания нового столбца "children_id"

In [28]:
def children_count(children):
    if children == 0:
        return 0
    else:
        return 1

data['children_id'] = data['children'].apply(children_count)
data['children_id'].value_counts()

0    14091
1     7363
Name: children_id, dtype: int64

Видно, что среди заемщиков бездетных почти в два раза больше

Также, попробуем категоризировать заемщиков по уровню дохода. Пусть будет три категории уровня дохода: низкий, средний, высокий. Посмотрим для начала на масштаб данных.

In [29]:
data['total_income'].min()

20667

In [30]:
data['total_income'].max()

2265604

In [31]:
data['total_income'].mean()

165225.6006339144

In [32]:
data['total_income'].median()

145017.0

Отличие медианного значения от среднего довольно существенное, это означает, что данные смещены "вправо". Возможно стоит еще выделить категорию "сверхвысокий". Среднее значение порядка 145 000. Разделим все данные по следюущему принципу - 1% сверхбогатых, 10% богатых, 10% бедных, 79% среднячков.

In [33]:
(data['total_income'] < 80000).sum()

2276

In [34]:
(data['total_income'] > 250000).sum()

2812

In [35]:
(data['total_income'] > 1000000).sum()

25

Наишем функцию для категоризации использую выявленные значения

In [36]:
def total_income_type(series):
    if series < 80000:
        return 'низкий'
    elif series > 250000:
        return 'высокий' 
    else:
        return 'средний'


Создаем новый столбец

In [37]:
data['total_income_type'] = data['total_income'].apply(total_income_type)

data['total_income_type'].value_counts()

средний    16366
высокий     2812
низкий      2276
Name: total_income_type, dtype: int64

### Вывод

Принято решение не присваивать номер выделнным категория "целей кредита". Пусть остаются названия. Одно слово, отражающее суть. Что касается самих данных в таблице, то они готовы для полноценного анализа.

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Для проверки наличия подобной корреляция сформируем для начала следующую сводную таблицу 

In [38]:
data_pivot = data.pivot_table(index=['debt'], columns='children_id', values='children', aggfunc='count')
print(data_pivot.head())

children_id      0     1
debt                    
0            13028  6685
1             1063   678


Из таблицы можно увидеть, что суммарное количество просрочек у заемщиков с детьми - 678. Это почти в половину меньше, чем аналогичное количество у бездетных заемщиков. Однако не будем забывать, что масштаб данных различается, а значит подобное сранвнение не совсем корректно. Потребуется учесть этот момент и нормировать результат. Для это попробуем оценить долю замещиков с фактом просрочек из общего числа заемщиков в каждой из категорий

In [39]:
ratio_for_0 = 1063 / (13082 + 1063) * 100

ratio_for_1 = 678 / (6685 + 678) * 100

print('Доля замещиков с просрочкой без детей = ' , ratio_for_0)
print('Дол замещиков с просрочкой с детьми  = ' , ratio_for_1)

Доля замещиков с просрочкой без детей =  7.515022976316719
Дол замещиков с просрочкой с детьми  =  9.208203178052424


Разница составляет примерно 1.7%

### Вывод

На основе проведенного анализа можно сделать вывод что у тех у кого есть дети имеют более высокий процент просрочек в сравнении с бездетными заемщиками.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

Для начала посмотрим на имеющиеся значения в столбце "gender"

In [91]:
data['gender'].value_counts()

F      14174
M       7279
XNA        1
Name: gender, dtype: int64

Видим, что для одной записи данные отсутствуют. Единственное отсутствующее значения не сильно отразтится на общем результате, поэтому принимаем решение просто не брать ее в расчет 

Женщин среди заемщиков почти в два раза больше, чем мужчин, поэтому сравнивать суммарное количество просрочек друг относительно друга будет некорректным. По аналогии с предыдущим вопросом, узнаем долю "проблемынх" заемщиков к общему числу заемщиков в каждой из категории

Создадим таблицы для заемщиков с просрочкой и без, и сгруппируем их по гендерной категории

In [97]:
c = data[data['debt'] == 0]

c.groupby('gender')['debt'].count()

gender
F      13180
M       6532
XNA        1
Name: debt, dtype: int64

In [93]:
c = data[data['debt'] == 1]

c.groupby('gender')['debt'].count()

gender
F    994
M    747
Name: debt, dtype: int64

In [94]:
ratio_for_F = 994 / (13180 + 994) * 100

ratio_for_M = 747 / (6532 + 747) * 100

print('Доля замещиков с просрочкой женского пола  = ' , ratio_for_F)
print('Дол замещиков с просрочкой мужского пола  = ' , ratio_for_M)

Доля замещиков с просрочкой женского пола  =  7.012840412022012
Дол замещиков с просрочкой мужского пола  =  10.262398681137519


### Вывод

Видим, что доля "проблемных" заемщиков среди женщин практически на 3.2% меньше, чем аналогичная доля среди заемщиков мужского пола. Похоже женщины более ответственны, когда дело касается взятых на себя обязательств 

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Сгруппируем данные по выделенным категориям уровня дохода

In [95]:
data_grouped = data.groupby(['total_income_type','debt']).agg({'total_income_type':'count'})
print(data_grouped.head(10))

                        total_income_type
total_income_type debt                   
высокий           0                  2618
                  1                   194
низкий            0                  2102
                  1                   174
средний           0                 14993
                  1                  1373


In [98]:
ratio_1 = 194 / (2618 + 194) * 100
ratio_2 = 1373 / (14993 + 1373) * 100
ratio_3 = 174 / (2102 + 174) * 100

print('Доля замещиков с просрочкой с высоким уровнем дохода  = ' , ratio_1)
print('Дол замещиков с просрочкой со средним уровнем дохода  = ' , ratio_2)
print('Доля замещиков с просрочкой с низким уровнем дохода  = ' , ratio_3)

Доля замещиков с просрочкой с высоким уровнем дохода  =  6.89900426742532
Дол замещиков с просрочкой со средним уровнем дохода  =  8.38934376145668
Доля замещиков с просрочкой с низким уровнем дохода  =  7.644991212653779


### Вывод

Логично предположить, что чем выше доход, тем ниже уровень просрочек по кредиту. Но данные показывают, что это не совсем так. Несмотря на то, что среди заемщиков с высоким уровнем дохода действительно наименьшая доля "проблемных" заемщиков, среди заемщиков со средним уровнем дохода "проблемных" заемщиков больше, чем у заемщиков с низким уровнем дохода. Следовательн о линейной зависимости говорить вряд ли можно.

- Как разные цели кредита влияют на его возврат в срок?

Посмотрим на следующую сводную таблицу

In [90]:
data_pivot_1 = data.pivot_table(index=['debt'], columns='purpose_id', values='purpose', aggfunc='count')
print(data_pivot_1.head())


purpose_id  автомобиль  недвижимость  образование  свадьба
debt                                                      
0                 3903         10029         3643     2138
1                  403           782          370      186


По аналогии с предыдущими вопросами, посмотрим на долю "проблемных" заещиков в общем количество заемщиков по каждой категории

In [99]:
ratio_debt_1 = 403 / (3903 + 403) * 100
ratio_debt_2 = 782 / (10029 + 782) * 100
ratio_debt_3 = 370 / (3643 + 370) * 100
ratio_debt_4 = 186 / (2138 + 186) * 100


print('Доля замещиков с просрочкой, цель - автомобиль   = ' , ratio_debt_1)
print('Доля замещиков с просрочкой, цель - недвижимость   = ' , ratio_debt_2)
print('Доля замещиков с просрочкой, цель - образование   = ' , ratio_debt_3)
print('Доля замещиков с просрочкой, цель - свадьба  = ' , ratio_debt_4)


Доля замещиков с просрочкой, цель - автомобиль   =  9.359033906177427
Доля замещиков с просрочкой, цель - недвижимость   =  7.233373415965221
Доля замещиков с просрочкой, цель - образование   =  9.22003488661849
Доля замещиков с просрочкой, цель - свадьба  =  8.00344234079174


### Вывод

Цель кредита "недвижимость" наименее проблемная. В то время как такие категории как "образование" и "автомобиль" обладают наибольше долей "проблемных" займов. Интересно было бы изучить данное обстоятельство дополнительно.



### Шаг 4. Общий вывод

Вопрос на которой необходимо было ответить: Влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

Анализ показал, те у кого есть дети имеют более высокий процент просрочек в сравнении с бездетными заемщиками. Разница в 1.7% довольно значительное различие, которое делает категорию "заемщики с детьми" более рисковой с точки зрения выдачи кредита. Следовательно можно рекомендовать учитывать фактор наличия детей при построении а значит скоринговой модели.


