# Исследование надежности заемщиков

## Описание проекта

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Описание данных

 - `children` — количество детей в семье
 - `days_employed` — общий трудовой стаж в днях
 - `dob_years` — возраст клиента в годах
 - `education` — уровень образования клиента
 - `education_id` — идентификатор уровня образования
 - `family_status` — семейное положение
 - `family_status_id` — идентификатор семейного положения
 - `gender` — пол клиента
 - `income_type` — тип занятости
 - `debt` — имел ли задолженность по возврату кредитов
 - `total_income` — ежемесячный доход
 - `purpose` — цель получения кредита

## Общая информация о данных

In [105]:
# импорт библиотек
import pandas as pd
import numpy as np

In [106]:
# чтение файла
data = pd.read_csv('datasets/bank_data.csv')

In [107]:
# вывод первых строк
display(data.head(20))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [108]:
# вывод общей информации
display(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


None

 - Из вывода данных видно, что столбец `days_employed` содержит аномалии в виде отрицательных значений и чисел с плавающей точкой. Так же в этом столбце вхождений (19351) меньше, чем в остальных колонках. Скорее всего есть пропущенные значения.
 - Столбец `education` содержит категориальные значения, неприведенные к общему виду.
 - Столбец `total_income` содержит меньше данных чем остальные столбцы, есть пропуски.

Резюмируя вышеизложенное, есть смысл пройтись по значениям во всех столбцах, что бы понять, насколько много встречается аномалий, пропусков, категориальных значений одинаковых по смыслу, но по разному написанных.

## Предобработка данных





### Проверка столбца `children`

In [109]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Проверка количества аномальных значений

In [110]:
display(data.loc[data['children'] == 20].shape)
data.loc[data['children'] == -1].shape

(76, 12)

(47, 12)

In [111]:
# удаление аномальных значений
data = data.loc[data['children'] !=-1]
data = data.loc[data['children'] !=20]

In [112]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Cтолбец `days_employed`

Замена отрицательных значений на положительные.


In [113]:
data['days_employed'] = data['days_employed'].abs()


Заполнение пропусков столбце медианными значениями по каждому типу занятости `income_type`.

In [114]:
# Создаем серию с медианными значениями для каждого типа занятости
days_employed_median = data.groupby('income_type')['days_employed'].transform('median')

# Заполняем пропуски
data['days_employed'] = data['days_employed'].fillna(days_employed_median)

In [115]:
# округление значения в столбце 'days_employed' до целых чисел и замена типа на int
data['days_employed'] = data['days_employed'].round(0).astype(int)

### Проверка столбца `dob_years`

In [116]:
# описание столбца статистическими показателями
data['dob_years'].describe()

count    21402.000000
mean        43.300206
std         12.579055
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

In [117]:
# проверка значений на аномалии
# задаем пороговые значения для проверки
min_age = 18
max_age = 75

anomalies = data[(data['dob_years'] < min_age) | (data['dob_years'] > max_age)]

anomalies.shape

(100, 12)

In [118]:
# фильтруем датафрейм, оставляя только строки с возрастом в заданном диапазоне
data = data[(data['dob_years'] >= min_age) & (data['dob_years'] <= max_age)]

### Проверка столбца `family_status` 

In [119]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

### Проверка столбца `education`

In [120]:
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [121]:
# Приводим все значения в столбце 'education' к нижнему регистру
data['education'] = data['education'].str.lower()

# Проверяем уникальные значения после преобразования
print(data['education'].unique())


['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']


### Проверка столбца `education_id`

In [122]:
data['education_id'].unique()

array([0, 1, 2, 3, 4])

### Столбец `total_income`

In [123]:
# заполнение пропусков колонки `total_income`
data['total_income'] = data.groupby('income_type')['total_income'].transform(lambda x: x.fillna(x.median()))

In [124]:
data['total_income'] = data['total_income'].round(0)

Создание колонки `total_income_category`, на основании диапазонов: 

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [125]:
def categorize_income(income):
    if income < 30001:
        return 'E'
    elif 30001 <= income < 50001:
        return 'D'
    elif 50001 <= income <200001:
        return 'C'
    elif 200001 <= income <1000001:
        return 'B'
    else:
        return 'A'

In [126]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

### Столбец `purpose`

In [127]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [128]:
# категоризация значений в столбце purpose

def categorize_purpose(str):
    if 'авто' in str:
        return 'операции с автомобилем'
    elif 'жиль' in str or 'движ' in str:
        return 'операции с недвижимостью'
    elif 'свадьб' in str:
        return 'проведение свадьбы'
    elif 'образ' in str:
        return 'получение образования'
    else:
        return 'прочее'

# Создание нового столбца с категориями
data['purpose_category'] = data['purpose'].apply(categorize_purpose)


### Проверка дубликатов

In [129]:
data.duplicated().sum()

np.int64(71)

In [130]:
# удаление дубликатов
data = data.drop_duplicates()

## Есть ли зависимость между количеством детей и возвратом кредита в срок

Рассчет доли невозврата кредита в зависимости от количества детей:

In [131]:
display(data.pivot_table(index=['children'], values='debt', aggfunc=['sum','count','mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1058,14022,0.075453
1,441,4792,0.092028
2,194,2039,0.095145
3,27,328,0.082317
4,4,41,0.097561
5,0,9,0.0


**Вывод**

1. Максимальный процент невозврата кредита у клиентов с 4 детьми.
2. При наличии одного и двух детей процент невозврата практически одинаковый (9,23% и 9,45% соответственно), следует обратить внимание, что количество случаев при 1 ребенке более чем в 2 раза превышает при 2 детях.
3. У клиентов с 5 детьми отсутствуют случаи не возврата кредита в срок.

## Зависимость между семейным положением и возвратом кредита в срок

Рассчитаем процент не возврата кредита в зависимости от семейного положения:


In [132]:
# замена в столбце 'family_status_id' имеющиеся цифры на определения в соответствии таблицей соответствия
data['family_status_id'] = data['family_status_id'].replace(
    {0: 'женат / замужем', 1: 'гражданский брак', 2: 'Не женат / не замужем', 3: 'в разводе', 4: 'вдовец / вдова'})


# рассчитаем долю не возврата кредита в зависимости от семейного положения:

display(data.pivot_table(index=['family_status_id'],
        values='debt', aggfunc=['sum', 'count', 'mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,62,946,0.065539
в разводе,84,1179,0.071247
вдовец / вдова,272,2780,0.097842
гражданский брак,383,4113,0.093119
женат / замужем,923,12213,0.075575


**Вывод**

1. Максимальный процент невозврата кредита у клиентов с семейным положением "вдовец / вдова" и "гражданский брак" (9,76 и 9,28 соответственно). Что вполне ожидаемо, т.к. существует либо недостаток средств в случае "вдовы", либо отсутствие "семейного" бюджета" при проживании в "гражданском браке".
2. У клиентов с семейным положением "не женат" самый низкий процент невозврата - 6,62.
3. Если обобщить категории по отношению к браку, можно сказать, что состоящие или состоявшие в браке заемщики реже допускают просрочки.

## Зависимость между уровнем дохода и возвратом кредита в срок

In [134]:
# рассчет долм невозврата кредита в зависимости от уровня дохода:
display(data.pivot_table(index=['total_income_category'],
        values='debt', aggfunc=['sum', 'count', 'mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,2,25,0.08
B,353,4988,0.07077
C,1346,15849,0.084926
D,21,347,0.060519
E,2,22,0.090909


**Вывод**

1. Максимальный процент невозврата кредита у клиентов с уровнем дохода категории E (0–30000) - 9.09.
2. У клиентов с уровнем дохода категории A (выше 1 000 001) и C (50 001–200 000) приблизительно одинаковый процент невозврата (8 и 8,49 соответственно).
3. Самый низкий процент невозврата у клиентов с уровнем дохода категории D (30 001–50 000) - 6.17.
4. Самые многочисленные выборки, это категории дохода B и С Если сравнить только их, то зависимость будет следующая, чем выше доход, тем ниже процент невозврата.

## Влияние разных целей кредита на его возврат в срок

In [84]:
display(data.pivot_table(index=['purpose_category'], values='debt', aggfunc=['sum','count','mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,397,4258,0.093236
операции с недвижимостью,777,10704,0.07259
получение образования,369,3970,0.092947
проведение свадьбы,181,2299,0.07873


**Вывод**

1. Максимальный процент невозврата кредита у клиентов с целью кредита "операции с автомобилем" и "получение образования" (9,34 и 9,25 соответственно).
2. Самый низкий процент невозврата у клиентов с целью кредита "операции с недвижимостью"- 7,25.
3. Количество клиентов с целью кредита "операции с недвижимостью" сопоставимо с суммой количества клиентов по оставшимся трем категориям.

#### Возможные причины появления пропусков в исходных данных.

Предположения о возникновении пропусков: человеческий фактор или техническая ошибка.
1. Часть заемщиков не захотела раскрывать свои данные о доходах и трудовой деятельности.
2. Возможно наполнение датасета шло из различных источников, не предполагающих заполнения каких-либо данных. Проверить можно связавшись с источником, в данном случае работаем с тем,что имеем.

### Общий вывод.

Портрет благонадежного кредитора, исходя из предоставленных данных, сформировался следующий:

Не имеющий детей, но имеющий опыт жизни в браке (а лучше всего разведенный или вдовый) человек с доходом выше 200 000 рублей. С другой стороны, к наименее надежным кредиторам относятся не имевшие опыта жизни в браке люди, обремененные детьми, с доходом ниже 200 000 рублей, берущие кредит на покупку автомобиля.