# Исследование надежности заемщиков


### Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Описание данных
- children— количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

## Изучаем общие данные

In [7]:
import pandas as pd
import numpy as np

data = pd.read_csv('https://raw.githubusercontent.com/trisha00001/Data_Preprocessing/main/data.csv')

In [10]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [13]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [16]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


days_employed, total_income  - содежат пропуски

## Предобработка данных

### Удаление пропусков

In [26]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски есть в столбцах days_empoyed и total_income. 
total_income мы исправим медианными значениями в зависимости от типа занятости.
days_imployed имеет много номальных значений, их справление будет проблемным, поэтому мы исправим отрицательные значения и заполним пропуски медианой.

In [39]:
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [42]:
data.groupby(['income_type'])['total_income'].median(numeric_only =True)

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64

In [46]:
data.groupby(['income_type'])['total_income'].agg(lambda x: np.median(x))

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий                  NaN
компаньон                    NaN
пенсионер                    NaN
предприниматель              NaN
сотрудник                    NaN
студент             98201.625314
Name: total_income, dtype: float64

In [49]:
data.groupby(['income_type'])['total_income'].median()

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64

In [52]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

In [55]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

total_income исправлена.

In [59]:
data['days_employed'] = data['days_employed'].abs()

In [62]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

In [66]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

In [68]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

days_employed тоже.

### Обработка аномальных значений

В столбце children попадаются аномальные значсение, котрые мешают анализу. По типу 20 или -1. Их надо удалить.

In [77]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [81]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

In [83]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Изменение типов данных

In [88]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

In [100]:
data['education'] = data['education'].str.lower()

Убираем чать дубликатов вызванных сочетанием заглавных и строчных букв.

In [102]:
data.duplicated().sum()

71

In [105]:
data = data.drop_duplicates()

### Категоризация данных

Разделим дохлды по категориям.
- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [113]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [116]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

In [119]:
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B


Разделим на категории причины взятия кредита.


In [127]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [130]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [133]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

In [136]:
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем


###  Исследуем данные

#### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [147]:
children_count_delay = data.groupby('children')['debt'].mean()
children_count_delay

children
0    0.075438
1    0.092346
2    0.094542
3    0.081818
4    0.097561
5    0.000000
Name: debt, dtype: float64

In [151]:
chil_debt=data.groupby('children').agg({'debt':['count','mean']})
chil_debt

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,mean
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,14091,0.075438
1,4808,0.092346
2,2052,0.094542
3,330,0.081818
4,41,0.097561
5,9,0.0


In [154]:
data_pivot = data.pivot_table(index=['children'], values=["debt"], aggfunc=['sum', 'count', 'mean'])
# сортируем, чтобы сразу видеть у кого ситуация лучше
data_pivot

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14091,0.075438
1,444,4808,0.092346
2,194,2052,0.094542
3,27,330,0.081818
4,4,41,0.097561
5,0,9,0.0


In [157]:
data_pivot = data.pivot_table(index=['children'], values=["debt"], aggfunc=['sum', 'count', 'mean'])
# сортируем, чтобы сразу видеть у кого ситуация лучше
data_pivot.sort_values(by = ('sum','debt'))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
5,0,9,0.0
4,4,41,0.097561
3,27,330,0.081818
2,194,2052,0.094542
1,444,4808,0.092346
0,1063,14091,0.075438


**Вывод:** Люди без детей платят по кредиту лучше, чем люди с детьми. Особое место занимают люди, у которых 5 детей, по нашим данным в среднем просрочки по кредиту у таких людей нет, однак можно предположить, что таких людей немного и это скорее исключение, а не правило.

#### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [164]:
data.groupby('family_status')['debt'].mean()

family_status
Не женат / не замужем    0.097639
в разводе                0.070648
вдовец / вдова           0.066246
гражданский брак         0.093130
женат / замужем          0.075606
Name: debt, dtype: float64

In [167]:
chil_debt=data.groupby('family_status').agg({'debt':['count','mean']})
chil_debt

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,mean
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
Не женат / не замужем,2796,0.097639
в разводе,1189,0.070648
вдовец / вдова,951,0.066246
гражданский брак,4134,0.09313
женат / замужем,12261,0.075606


In [170]:
df_pivot_family = data.pivot_table(index=['children'],
                                    columns='family_status', values='debt', aggfunc='count')
df_pivot_family

family_status,Не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2262.0,784.0,847.0,2730.0,7468.0
1,449.0,312.0,77.0,995.0,2975.0
2,75.0,81.0,20.0,343.0,1533.0
3,8.0,11.0,6.0,56.0,249.0
4,2.0,1.0,1.0,8.0,29.0
5,,,,2.0,7.0


In [173]:
df_pivot_family = data.pivot_table(index=['children'],
                                    columns='family_status', values='debt', aggfunc='mean')
df_pivot_family

family_status,Не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,0.092838,0.070153,0.062574,0.083883,0.069095
1,0.115813,0.067308,0.090909,0.118593,0.082689
2,0.12,0.08642,0.15,0.087464,0.094586
3,0.125,0.090909,0.0,0.142857,0.068273
4,0.5,0.0,0.0,0.0,0.103448
5,,,,0.0,0.0


**Вывод:** Рассматривая семейное положение помимо других переменных, мы видим, что неженатые люди наряду с людьми, состоящими в  гражданском браке, имеют самые высокие показатели просрочки по кредиту (9,7% и 9,3% соответственно). Вдовцы платят по кредитам лучше всего.

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [182]:
pivot_income = data.pivot_table(index=['total_income_category'],
                                    columns='income_type', values='debt', aggfunc='mean')
pivot_income

income_type,безработный,в декрете,госслужащий,компаньон,пенсионер,предприниматель,сотрудник,студент
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
A,,,,0.133333,,,0.0,
B,0.0,,0.04918,0.062897,0.056159,0.0,0.083051,
C,1.0,1.0,0.063208,0.080049,0.057124,,0.099483,0.0
D,,,0.041667,0.04,0.042683,,0.088235,
E,,,0.0,0.0,0.133333,,0.0,


**Вывод:** Можно видеть, что самыми ответственными являются люди категории E (с низким доходом). Пенсионеры и компаньоны объявляют дефолт реже, чем другие категории заемщиков. Хуже всего выплачивают кредиты безработные и женщины в декрете.


#### Как разные цели кредита влияют на его возврат в срок?

In [191]:
data.groupby('purpose_category')['debt'].mean()

purpose_category
операции с автомобилем      0.093480
операции с недвижимостью    0.072551
получение образования       0.092528
проведение свадьбы          0.079118
Name: debt, dtype: float64

Вывод: Предположение, что чем дороже цель получения кредита, тем выше вероятность того, что кредит будет погашен не подтвердилась. Заемщики реже всего объявляют дефолт по кредиту на «недвижимость», которая, вероятно, является самой дорогой из 4 целей. Второй по дороговизне целью является образование и кредитополучатели отказываются от исполнения кредитных обязательств по нему почти так же часто, как и при покупке автомобиля (который в среднем наименее экспансивный из всех).

### Общий вывод.

В ходе аналитического исследования были проанализированы данные о кредитоспособности клиентов, чтобы выявить зависмость между различными характеристиками клиентов и их способностью исполнять кредитные обязательства.

Первый этап исследование - ознакомление с данными и проведение предобработки данных.Затем набор данных был очищен от дубликатов строк.Далее, была выполнена категоризация четырех столбцов данных: "total_income", "purpose".

Далее были обнаружены категории граждан, которые лучше всего выплачивают кредит, таките как вдовцы, люди с высоким доходом, и группы людей которые хуже всего оплачивают кредиты, такие как безработные граждане, женщины в декретах. Если рассматривать цель кредита, то лучше всего выплаивают кредиты на недвижимость, хуже всего кредиты на автомобили.