# Исследование надежности заемщиков

**Задача:** На основе данных, предоставленных кредитным отделом банка, сделать выводы о способности клиента вернуть кредит в срок. Необходимо исследовать какие факторы могут повлиять на это. Результаты исследования будут использоваться в модели кредитного скоринга.

**План проекта:**

1. Обзор данных
2. Предобработка данных
3. Анализ данных

## Обзор данных

In [1]:
# библиотеки
import pandas as pd

In [3]:
# прочитаем данные
data = pd.read_csv('/datasets/data.csv')
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Выводы:**

В датасете 12 столбцов и 21525 строк. В них содержатся данные о:

- children — количестве детей;
- days_employed — трудовом стаже клиента в днях;
- dob_years — возрасте клиента;
- education — уровне образования клиента;
- education_id;
- family_status — семейном положение;
- family_status_id;
- gender — поле клиента;
- income_type - типе занятости;
- debt — наличие ранее задолженности по кредиту;
- total_income - доходе клиента (ежемесячный);
- purpose - цели получения кредита.

На первый взляд есть пропуски в столбцах days_employed и total_income. В days_employed есть отрицательные значения. Записи в столбце education не унифицированы. 

Есть записи education_id и family_status_id — кажется, соответсвие такое: высшее образование - 0, среднее - 1; официальный брак - 0, гражданский - 1.

## Преобработка данных

1. Посмотрим на пропуски в данных и обработаем их
2. Проверим на аномалии
3. Поищем дубликаты
4. Поменяем типы данных, где нужно
5. Категоризуем данные о доходах клиаентов и целях получения кредита

### Пропуски

In [5]:
# количество пропусков
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски в total_income заполним медианой, сгруппировав данные по типу дохода.

Пропуски в days_employed. Прежде чем заполнять пропуски, нужно избавиться от отрицательных значений в столбце. Скорее всего это техническая ошибка. Сделаем все значения положительными. Затем также сгруппируем данные по типу дохода и заполним пропуски медианным значением.

In [7]:
# заполним пропуски в данных о доходе
median_income = data.groupby('income_type')['total_income'].transform('median') 
data['total_income'].fillna(median_income, inplace=True)
data['total_income'].isna().sum()

0

In [8]:
# устраним аномалию
data['days_employed'] = data['days_employed'].abs()

In [9]:
# проверим медиану по типу дохода
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

In [11]:
# заполним пропуски в данных о трудовом стаже
median_days = data.groupby('income_type')['days_employed'].transform('median') 
data['days_employed'].fillna(median_days, inplace=True) 
data['days_employed'].isna().sum()

0

In [12]:
# ищем ещё аномалии
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [13]:
# удаляем аномалию
data = data[~data['children'].isin((-1,20))]

In [14]:
# проверим
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

In [15]:
# проверим пропуски
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

In [16]:
# поменяем тип у total_income на целочисленный
data['total_income'] = data['total_income'].astype(int)

### Дубликаты

In [17]:
# приведём к нижнему регистру данные об образовании
data['education'] = data['education'].str.lower()

In [18]:
# количество дубликатов
data.duplicated().sum()

71

In [19]:
# удалим дубликаты
data = data.drop_duplicates()

### Категоризация данных

In [20]:
# создадим функцию 
def categorize_income(total_income):
    if 0 < total_income <= 30000:
        return 'E'
    elif 30000 < total_income <= 50000:
        return 'D'
    elif 50000 < total_income <= 200000:
        return 'C'
    elif 200000 < total_income <= 1000000:
        return 'B'
    elif total_income > 1000000:
        return 'A'
    return 'Something is going wrong'

In [22]:
# применим функцию
data['total_income_category'] = data['total_income'].apply(categorize_income)

In [23]:
# посмотрим на уникальные значения целей
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [24]:
# создадим функцию 
def categorize_purpose(purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'
    elif 'жиль' in purpose:
        return 'операции с недвижимостью'
    elif 'недвиж' in purpose:
        return 'операции с недвижимостью'
    elif 'свад' in purpose:
        return 'проведение свадьбы'
    elif 'образов' in purpose:
        return 'получение образования'
    return 'Hah, you are wrong again'

In [25]:
# применим функцию
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

## Анализ данных

Ответим на следующие вопросы:

1. Есть ли зависимость между количеством детей и возвратом кредита в срок?
2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
4. Как разные цели влияют на факт возврата кредита в срок?

In [26]:
# количество детей и долг
data.pivot_table(index = 'children', values = 'debt', aggfunc = ['count', 'sum', 'mean'])\
    .sort_values(by = ('mean', 'debt'), ascending = False)\
    .style.format({('mean', 'debt') : '{:.2%}'})

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
4,41,4,9.76%
2,2052,194,9.45%
1,4808,444,9.23%
3,330,27,8.18%
0,14091,1063,7.54%
5,9,0,0.00%


Самые ненадежные заемщики - семьи с четырьмя детьми. У них наибольшая доля задолженностей, если сравнивать с семьями, где детей меньше. Заметна зависимость между увеличением количества детей и просрочкам по кредиту, поэтому группа семей с пятью детьми будет неправильно назвать надежными заемщиками, пусть показатель и равен 0. Получается что самая низкая доля просрочек у семей без детей - 7,54%.

In [27]:
# семейное положение и долг
data.pivot_table(index = 'family_status', values = 'debt', aggfunc = ['count', 'sum', 'mean'])\
    .sort_values(by = ('mean', 'debt'), ascending = False)\
    .style.format({('mean', 'debt') : '{:.2%}'})

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2796,273,9.76%
гражданский брак,4134,385,9.31%
женат / замужем,12261,927,7.56%
в разводе,1189,84,7.06%
вдовец / вдова,951,63,6.62%


Платят в срок те, кто в группе "вдовец/вдова". Интересно, что наибольшая доля у тех, кто не состоит в браке, хотя из предыдущего вывода следовало, что семьи без детей платят вовремя.

In [28]:
# уровень дохода и долг
data.pivot_table(index = 'total_income_category', values = 'debt', aggfunc = ['count', 'sum', 'mean'])\
    .sort_values(by = ('mean', 'debt'), ascending = False)\
    .style.format({('mean', 'debt') : '{:.2%}'})

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
E,22,2,9.09%
C,15921,1353,8.50%
A,25,2,8.00%
B,5014,354,7.06%
D,349,21,6.02%


Чаще всего кредиты берут те, у кого уровень дохода в категории "С" - от 50 000 до 200 000. Если смотреть на общую картину, то они и являются самыми надежными заемщиками. Те, кто в группе "D" имеют лучший показатель, но их количество значительно меньше, чем в "С". Я думаю, то же верно и для группы "B". Худший показатель у "Е", что понятно, так как у них самый низкий уровень дохода.

In [30]:
# цели кредита и долг
data.pivot_table(index = 'purpose_category', values = 'debt', aggfunc = ['count', 'sum', 'mean'])\
    .sort_values(by = ('mean', 'debt'), ascending = False)\
    .style.format({('mean', 'debt') : '{:.2%}'})

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,4279,400,9.35%
получение образования,3988,369,9.25%
проведение свадьбы,2313,183,7.91%
операции с недвижимостью,10751,780,7.26%


Если цель покупка недвижимости, то вероятнее всего кредит вернут в срок.

Посмотрим ещё раз на группы по доходам и сравним две самые многочисленные.

С увеличением уровня дохода доля должников меньше. При этом количество заемщиков тоже уменьшается. Это может быть связано с тем, что у более обеспеченной группы реже возникает потребность в кредите. Или возможно дело в какой-то конкретной цели кредита, которая не характерна для этой категории заемщиков.

In [29]:
# проверим предположение
data.pivot_table(index = 'total_income_category', columns = 'purpose_category', values='debt', aggfunc = 'count')

purpose_category,операции с автомобилем,операции с недвижимостью,получение образования,проведение свадьбы
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,2,17,4,2
B,1022,2558,890,544
C,3181,7997,3014,1729
D,72,168,75,34
E,2,11,5,4


Как я и предполагала, кредиты на образование или на свадьбу заметно реже берут с уровнем дохода "В". В то же время кредиты на автомобиль и на образование у "С" почти в одинаковом приоритете. Учитывая то, что именно эти цели проседают и их большинство по сравнению со всеми остальными группами доходов, вывод о надежности заемщиков из "С" ставится под сомнение. Тогда самыми надежными заемщиками согласно уровню доходов являются те, кто в категории "В". Однако, такое количество заемщиков из "С" говорит о том, что они являются целевой аудиторией банка, что значит они вполне подходят под портрет идеального клиента. Возможно стоит уточнить категоризацию по доходом, разбить на более мелкие группы или наоборот объединить, чтобы прояснить этот момент.

## Итоги исследования

Данные были обработаны: устранены пропуски и ошибки, дубликаты. Ввели новые столбцы: категоризовали клиентов по уровню их дохода и по целям займа. Проведено исследование данных с целью выявить, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. 

Выводы:

- Самые ненадежные заемщики —  семьи с четырьмя детьми;
- Самые надёжные заёмщики — клиенты без детей;
- Скорее всего долг вернут в срок те, кто когда-то состоял в браке, но уже не состоит в нём;
- Самая многочисленная группа заёмщиков с уровнем дохода от 50 000;
- Те, кто приходят в банк с целью покупки недвижимости, вернут долг в срок.

Рассмотренные факторы определяют вероятность возворате кредита в срок. Портрет идеального заёмщика выглядит так:

- средний уровень дохода от 50 000
- без детей и/или вдова/вдовец
- с целью покупки недвидимостиости