# Исследование надежности заемщиков


На основе данных, предоставленных кредитным отделом банка, мы провели исследование, чтобы изучить влияние семейного положения и количества детей на своевременное погашение кредита.

В начале работы провели обзор и обработку данных. Это включало заполнение пропущенных значений, замену типов данных на соответствующие содержанию данных, а также удаление дубликатов.

Далее мы приступили к категоризации данных, чтобы взглянуть на различные группы, которые могут оказывать влияние на погашение кредита. После категоризации полученный исходный датафрейм был разделён на три отдельных датафрейма, сфокусированных на семейном статусе, количестве детей и факте погашения кредита.

Такой подход позволит нам в дальнейшем проанализировать эти факторы более детально и выявить связи и закономерности между ними.



### Откроем таблицу и изучим общую информацию о данных

In [4]:
import pandas as pd

try:
    data = pd.read_csv('')
except:
    data = pd.read_csv('')

Выведем первые 20 строчек датафрейма `data` на экран.

In [5]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Выведем основную информацию о датафрейме с помощью метода `info()`.

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

Выведем количество пропущенных значений для каждого столбца. 

In [7]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

### Обработка аномальных значений

На этом этапе задания мы обрабатываем пропущенные значения. Столбец total_income, содержащий данные о доходах, имеет пропуски. Чтобы заполнить эти пропуски, мы используем медианное значение дохода для каждого типа занятости из столбца income_type

In [8]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

Поработаем с артефактами или аномалиями в данных, которые представляют отрицательное количество дней трудового стажа в столбце days_employed. Хотя для реальных данных это может быть нормально, мы должны их обработать. Для этого заменяем все отрицательные значения на положительные, используя метод abs(). Таким образом, все отрицательные значения станут положительными. 

In [9]:
data['days_employed'] = data['days_employed'].abs()

Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.

In [10]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть. Тем более этот столбец не понадобится для исследования.

Выведем перечень уникальных значений столбца `children`.

In [11]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.

In [12]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

Ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.

In [13]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

Заполним пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.

In [14]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

Убедимся, что все пропуски заполнены.

In [15]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.

In [16]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверем остальные столбцы.

In [17]:
data['education'] = data['education'].str.lower()

Выведем на экран количество строк-дубликатов в данных, и удалиим их.

In [18]:
data.duplicated().sum()

71

In [19]:
data = data.drop_duplicates()

### Категоризация данных

На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:
- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [20]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [21]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`.

In [22]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:
- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

In [23]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [24]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
data


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем


### Шаг 3. Исследуем данные

#### 3.1 Проверим, есть ли зависимость между количеством детей и возвратом кредита в срок.

In [123]:
#создадим функцию table_formatted() для вывода всех таблиц в одном стиле
def table_formatted(table):
    
    table = table.sort_values(by='mean')
    table.columns = ['процент_должников:', 'долгов:', 'клиентов:']    
    table['процент_должников:'] = (table['процент_должников:'] * 100).round(1)
    return table

In [125]:
children_grouped = data.groupby('children')['debt'].agg(['mean','sum','count'])
table_formatted(children_grouped)

Unnamed: 0_level_0,процент_должников:,долгов:,клиентов:
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,0.0,0,9
0,7.5,1063,14091
3,8.2,27,330
1,9.2,444,4808
2,9.5,194,2052
4,9.8,4,41


In [127]:
with_children = children_grouped.loc[1:5,'sum'].sum() / children_grouped.loc[1:5,'count'].sum()
no_children = children_grouped.loc[0,'mean']
print('\n', 
      f'Должников среди людей с детьми: {with_children:.1%}', 
      '\n', 
      f'Должников среди людей без детей: {no_children:.1%}'
     )
print(f'\n Разница между гуппами: {abs(no_children-with_children):.1%}')


 Должников среди людей с детьми: 9.2% 
 Должников среди людей без детей: 7.5%

 Разница между гуппами: 1.7%


**Вывод:** 
Среди людей, у которых есть дети, процент должников примерно равный. Из их числа выделяются люди с 3 и 5 детьми. Но так как объем выборки этих групп достаточно мал, примем это за статистическую погрешность.


Из этого исследования можно сделать вывод, что должников среди людей без детей меньше чем должников среди людей с детьми.

#### 3.2 Проверим, есть ли зависимость между семейным положением и возвратом кредита в срок.

In [128]:
family_status_grouped = data.groupby('family_status')['debt'].agg(['mean','sum','count'])
table_formatted(family_status_grouped)

Unnamed: 0_level_0,процент_должников:,долгов:,клиентов:
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,6.6,63,951
в разводе,7.1,84,1189
женат / замужем,7.6,927,12261
гражданский брак,9.3,385,4134
Не женат / не замужем,9.8,273,2796


In [129]:
print(
    'Должников среди людей состоящих, либо состоявших в браке :',
    (family_status_sorted.loc[family_status_sorted.index[:3],'sum'].sum() / \
family_status_sorted.loc[family_status_sorted.index[:3],'count'].sum()).round(3) * 100, '%'
)
print(
    'Должников среди людей не состоящих в браке:',
    (family_status_sorted.loc[family_status_sorted.index[3:5],'sum'].sum() / \
family_status_sorted.loc[family_status_sorted.index[3:5],'count'].sum()).round(3) * 100, '%'
)


Должников среди людей состоящих, либо состоявших в браке : 7.5 %
Должников среди людей не состоящих в браке: 9.5 %


**Вывод:** 
Изучая таблиццу выделим 2 принцципиальные группы

1.Самое большое количество должников наблюдается среди людей не состоящих в браке:

* гражданский брак
* Не женат / не замужем

2.Меньшее количество должников наблюдается среди людей состоящих в браке, либо состоявших в браке:

* вдовец / вдова
* в разводе
* женат / замужем

После сравнения этих групп выясняется:
Процент должников среди людей состоящих/состоявших в браке меньше на 2 %, 
чем среди людей не состоящих в браке

#### 3.3 Проверим, есть ли зависимость между уровнем дохода и возвратом кредита в срок.

In [134]:
total_income_category_grouped = data.groupby('total_income_category')['debt'].agg(['mean','sum','count'])
table_formatted(total_income_category_grouped)  

Unnamed: 0_level_0,процент_должников:,долгов:,клиентов:
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,6.0,21,349
B,7.1,354,5014
A,8.0,2,25
C,8.5,1353,15921
E,9.1,2,22


In [132]:
# т.к. в 3 группах распределение не достаточно для оценки, разделим клиентов на 2 категории
def categorize_income_fair(income):
    try:
        if 0 <= income <= 200000:
            return 'B'
        elif income >= 200001:
            return 'A'
    except:
        pass
    
data['total_income_category_fair'] = data['total_income'].apply(categorize_income_fair)
total_income_category_fair_grouped = data.groupby('total_income_category_fair')['debt'].agg(['mean','sum','count'])

table_formatted(total_income_category_fair_grouped)

Unnamed: 0_level_0,процент_должников:,долгов:,клиентов:
total_income_category_fair,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,7.1,356,5039
B,8.4,1376,16292


**Вывод:** 

При раздении клиентов на 5 категорий мы не можем выявить зависимость, так как основной объем выборки приходится только на 2 группы.
Зависимость будем определять только по 2 группам с достаточным количеством клиентов. 
Для этого можно разделить клиентов на 2 группы, с доходом менее/более 200000.

Получается, что клиенты с большим уровнем дохода реже допускают просрочки по кредитам.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [133]:
purpose_category_grouped = data.groupby('purpose_category')['debt'].agg(['mean','sum','count'])
table_formatted(purpose_category_grouped)

Unnamed: 0_level_0,процент_должников:,долгов:,клиентов:
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,7.3,780,10751
проведение свадьбы,7.9,183,2313
получение образования,9.3,369,3988
операции с автомобилем,9.3,400,4279


**Вывод:** 

Люди которые проводят свадьбы и операции с недвижимостью более склонны отдавать кредит в срок, чем люди которые получают образование или проводят операции с автомобилями

### Общий вывод.

Наличие детей:
Среди заемщиков, имеющих детей, процент должников примерно одинаковый, за исключением групп с 3 и 5 детьми, где процент должников незначительно выше. Однако, учитывая малый размер выборки в этих группах, эти различия могут быть связаны с статистической погрешностью. В целом, можно сделать вывод, что процент должников среди заемщиков без детей немного ниже (на 1,7%) по сравнению с заемщиками, у которых есть дети.

Семейный статус:
Наблюдается наибольшее количество должников среди неженатых/незамужних заемщиков. Меньшее количество должников наблюдается среди заемщиков, находившихся или находящихся в браке. После сравнения этих групп обнаруживается, что процент должников среди заемщиков, находившихся или находящихся в браке, на 2% ниже, чем среди неженатых/незамужних заемщиков.

Уровень дохода:
При анализе заемщиков по уровню дохода в 5 категориях, нет явной зависимости между уровнем дохода и процентом должников, так как основная часть выборки сосредоточена только в двух категориях. В целом, заемщики с более высоким уровнем дохода реже сталкиваются с просрочками по кредитам. Процент должников среди заемщиков с высоким уровнем дохода ниже на 1,3%.

Цели кредитования:
Люди, берущие кредиты для проведения свадьбы или операций с недвижимостью, более склонны к своевременному погашению кредита, в сравнении с людьми, берущими кредиты на образование или операции с автомобилями. Разница в проценте должников между этими группами составляет около 2%.
