# Исследование надёжности заёмщиков — анализ банковских данных

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Шаг 1. Изучение общей информации

In [1]:
# импорт библиотеки pandas
import pandas as pd

In [2]:
# чтение файла с данными и сохранение в df
df = pd.read_csv('/datasets/data.csv')

In [3]:
# получение первых 10 строк таблицы df
display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
# получение общей информации о данных в таблице df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [5]:
# общие показатели таблицы
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Итак, в таблице 12 столбцов. Встречаются такие типы данных, как object, float64 и int64.

Согласно документации к данным:

* 'children' — количество детей в семье
* 'days_employed' — общий трудовой стаж в днях
* 'dob_years' — возраст клиента в годах
* 'education' — уровень образования клиента
* 'education_id' — идентификатор уровня образования
* 'family_status' — семейное положение
* 'family_status_id' — идентификатор семейного положения
* 'gender' — пол клиента
* 'income_type' — тип занятости
* 'debt' — имел ли задолженность по возврату кредитов
* 'total_income' — ежемесячный доход
* 'purpose' — цель получения кредита


**Вывод**

## Шаг 2. Предобработка данных

### Обработка пропусков

In [6]:
# подсчёт пропусков
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [7]:
# группировка значений
medians = (df.groupby(['income_type', 'education'])
            .agg({'total_income': 'median'}).rename(columns = {'total_income': 'median_total_income'}))

# объединение и образование дополнительной колонки
df = df.merge(medians, on = ['income_type', 'education'])
df[['income_type', 'education', 'total_income', 'median_total_income']][df['total_income'].isna()].head()

Unnamed: 0,income_type,education,total_income,median_total_income
11,сотрудник,высшее,,166164.078024
12,сотрудник,высшее,,166164.078024
15,сотрудник,высшее,,166164.078024
26,сотрудник,высшее,,166164.078024
32,сотрудник,высшее,,166164.078024


In [8]:
# заполнение пустых значений в колонке доходов из колонки 'median_total_income'
df.loc[df['total_income'].isna(), 'total_income'] = df.loc[df['total_income'].isna(), 'median_total_income']

In [9]:
# замена пропущенных значений столбца стажа на медиану
med = df['days_employed'].median()
df['days_employed'] = df['days_employed'].fillna(med)

In [10]:
# подсчёт пропусков
df.isna().sum()

children               0
days_employed          0
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
median_total_income    0
dtype: int64

**Вывод**

В двух колонках было выявлено по 2174 пропущенных значений. Стаж работы и доход клиента являются важными факторами при принятии решения банком о выдаче кредита. Отсутствие данных может свидетельствовать о том, что клиент клиент мог отказаться от предоставления данных о трудовом стаже и общем доходе, или он не имел официального источника заработка и ни разу не работал по трудовому договору или договору ГПХ (гражданско-правового характера). Не исключается техническая ошибка. Пропущенные значения в столбцах days_employed и total_income были заменены на медиану.

### Замена типа данных

In [11]:
# получение информации о типах данных в таблице
df.dtypes

children                 int64
days_employed          float64
dob_years                int64
education               object
education_id             int64
family_status           object
family_status_id         int64
gender                  object
income_type             object
debt                     int64
total_income           float64
purpose                 object
median_total_income    float64
dtype: object

In [12]:
# перевод значений столбца в тип данных 'int64'
df['total_income'] = df['total_income'].astype('int64')

In [13]:
# перевод отрицательных значений в абсолютные
df['days_employed'] = abs(df.days_employed)

In [14]:
# перевод отрицательных значений в абсолютные
df['children'] = abs(df.children)

In [15]:
# перевод дней в года
df['days_employed'] = df['days_employed'] / 365

In [16]:
# переименование колонки с днями в 'years_employed'
df.rename(columns={"days_employed": "years_employed"}, inplace=True)
df

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,median_total_income
0,1,23.116912,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,166164.078024
1,0,6.493150,33,высшее,0,гражданский брак,1,M,сотрудник,0,90410,строительство недвижимости,166164.078024
2,0,0.747894,21,высшее,0,гражданский брак,1,M,сотрудник,0,128265,сыграть свадьбу,166164.078024
3,0,1.449840,28,высшее,0,женат / замужем,0,M,сотрудник,0,308848,строительство собственной недвижимости,166164.078024
4,1,1.965135,26,высшее,0,женат / замужем,0,F,сотрудник,0,187863,строительство собственной недвижимости,166164.078024
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,0,1092.054984,60,Неоконченное высшее,2,женат / замужем,0,F,пенсионер,0,83625,заняться высшим образованием,83625.583859
21521,3,16.350893,36,ученая степень,4,женат / замужем,0,F,госслужащий,0,111392,покупка жилья,111392.231107
21522,0,1030.893752,62,ученая степень,4,женат / замужем,0,F,пенсионер,0,255425,покупка жилой недвижимости,255425.196556
21523,0,1083.021476,45,Высшее,0,гражданский брак,1,F,безработный,0,202722,ремонт жилью,202722.511368


In [17]:
# максимальный возраст клиента
df.dob_years.max()

75

In [18]:
# количество строчек, в которых стаж превышает разумные значения (больше максимального возраста клиента)
df.query('years_employed > 75')['dob_years'].count()

3445

In [19]:
def into_years(row):
    years_employed = row['years_employed']
    dob_years = row['dob_years']

    if years_employed > 75:
         return years_employed / 24
    else:
        return years_employed

df['years_employed'] = df.apply(into_years, axis=1)

In [20]:
# перевод значений столбца в тип данных 'int64'
df['years_employed'] = df['years_employed'].astype('int64')

In [21]:
# максимальное значение столбца "years_employed" с целью проверки проведенных изменений
df.years_employed.max()

50

**Вывод**

Для удобства восприятия данных таблицы колонки с доходами и стажем работы были переведены из вещественного типа данных на целочисленный. Использовался метод astype(), также в эту же колонку были перезаписаны значения с новым типом, чтобы не создавать новую.

После перевода значений в колонке со стажем в абсолютные, а затем с дней на года, обнаружилось, что в ряде случаев стаж клиентов составлял более 900 лет. Сравнивая возраст клиентов и возможный стаж, можно было предположить, что данные были приведены в часах. Разделив аномальные значения, мы получили более приближенные к действительности данным. Теперь максимальный стаж не превышает 50 лет.

### Обработка дубликатов

In [22]:
# подсчёт явных дубликатов
df.duplicated().sum()

54

In [23]:
# просмотр уникальных значений об уровне образования
df['education'].sort_values().unique()

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

In [24]:
# приведение строк в колонке 'education' к нижнему регистру
df['education'] = df['education'].str.lower()

In [25]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых)
df = df.drop_duplicates().reset_index(drop=True)

In [26]:
# проверка на отсутствие дубликатов
df.duplicated().sum()

0

In [27]:
# проверка на отсутствие дубликатов
df['education'].sort_values().unique()

array(['высшее', 'начальное', 'неоконченное высшее', 'среднее',
       'ученая степень'], dtype=object)

**Вывод**

В процессе предобработки выявлены явные и неявные дубликаты в таблице. Явных дубликатов было обнаружено 54. Это может быть обусловлено технической ошибкой или повторной заявкой со стороны клиентов. 

Неявные дубликаты оказались в колонке со значениями об уровне образования. Были использованы как строчные, так и заглавные буквы. Метод string lower() позволил решить данную задачу и привести значения в колонке в единую форму.

Метод drop_duplicates() удалил лишние строки в таблице.

### Лемматизация

In [28]:
# просмотр уникальных названий жанров
df['purpose'].sort_values().unique()

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

In [29]:
# получение лемматизатора для слов на русском
from pymystem3 import Mystem
m = Mystem()

In [30]:
# функция лемматизации по столбцу 'purpose'
def purpose_category(purpose):
    lem_row = m.lemmatize(purpose)
    for value in lem_row:
        if 'образован' in value:
            return 'образование'
        if 'авто' in value:
            return 'автомобиль'
        if 'жил' in value or 'недвиж' in value:
            return 'нежвижимость'
        if 'свадьб' in value:
            return 'свадьба'
 
df['purpose_category'] = df['purpose'].apply(purpose_category)
df.head()

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,median_total_income,purpose_category
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,166164.078024,нежвижимость
1,0,6,33,высшее,0,гражданский брак,1,M,сотрудник,0,90410,строительство недвижимости,166164.078024,нежвижимость
2,0,0,21,высшее,0,гражданский брак,1,M,сотрудник,0,128265,сыграть свадьбу,166164.078024,свадьба
3,0,1,28,высшее,0,женат / замужем,0,M,сотрудник,0,308848,строительство собственной недвижимости,166164.078024,нежвижимость
4,1,1,26,высшее,0,женат / замужем,0,F,сотрудник,0,187863,строительство собственной недвижимости,166164.078024,нежвижимость


In [31]:
# подсчет частоты встречаемости целей получения кредита
df['purpose_category'].value_counts()

нежвижимость    10814
автомобиль       4308
образование      4014
свадьба          2335
Name: purpose_category, dtype: int64

**Вывод**

При просмотре уникальных значений столбца с целями получения кредита обнаружилось, что есть повторяющиеся значения, которые по-разному сформулированы. На основании анализа данных, полученных с помощью метода unique(), можно выделить 4 основные цели клиентов, обратившихся в банк, а именно покупка недвижимости, автомобиля, оплата образования и свадьбы.

С помощью функции лемматизации по столбцу мы образовали 4 группы целей и сохранили в колонке с категориями целей. Метод value_counts() показал, что чаще всего клиенты заинтересованы в получении финансирования на покупку недвижимости. Кредиты на свадебные цели - наименее востребованные. 

### Категоризация данных

In [32]:
# определение процентилей доходов клиентов
df.total_income.describe().astype(int)

count      21471
mean      165448
std        98271
min        20667
25%       107520
50%       143206
75%       198251
max      2265604
Name: total_income, dtype: int64

In [33]:
# функция для определения категории доходов
def income_group(income):
    if income <= 107520: 
        return "низкий"
    elif income <= 143206: 
        return "ниже среднего"
    elif income <= 198251: 
        return "выше среднего"
    else: 
        return "высокий"

# создание нового столбца с категориями доходов
df['income_group'] = df['total_income'].apply(income_group)
df.income_group.value_counts()

ниже среднего    5369
низкий           5368
высокий          5368
выше среднего    5366
Name: income_group, dtype: int64

**Вывод**

В рамках данного исследования необходимо разделить клиентов по уровню доходов. С помощью метода describe() мы выявили процентили доходов клиентов, что позволило определить значения для распределения клиентов на 4 группы: с доходом до 107520, до 143206, до 198251 и выше. Так, в группу с низкими доходами включено 5369 клиентов, ниже среднего - 5369, выше среднего - 5366, высокими доходами - 5368.

## Шаг 3. Анализ данных

- Наличие зависимости между наличием детей и возвратом кредита в срок

In [34]:
# функция для распределения клиентов по группам в зависимости от наличия детей
def number_children(children):
    if children > 0: 
        return 1
    else: 
        return 0

In [35]:
# создание новой колонки и сводной таблицы о наличии детей и задолженности
df['child_exist'] = df['children'].apply(number_children)

df_pivot = df.pivot_table(index = ['child_exist'], values = 'debt').round(3)
df_pivot

Unnamed: 0_level_0,debt
child_exist,Unnamed: 1_level_1
0,0.075
1,0.092


In [37]:
# создание таблицы о количестве семей с детьми и задолженности
df.groupby('children')['debt'].agg(['count', 'sum', lambda x: '{:.2%} '.format(x.mean())])

Unnamed: 0_level_0,count,sum,<lambda_0>
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14107,1063,7.54%
1,4856,445,9.16%
2,2052,194,9.45%
3,330,27,8.18%
4,41,4,9.76%
5,9,0,0.00%
20,76,8,10.53%


In [38]:
# доля клиентов с 20 детьми от общего количества клиентов
round(df[df['children'] == 20]['debt'].count() / df.shape[0] * 100, 2)

0.35

**Вывод**

Анализ данных показал, что между наличием детей и возвратом кредита в срок существует зависимость, если сравниваем по такому критерию, как наличие или отсутствие детей. Клиенты с детьми более склонны к невыплатам кредитов, чем без детей: 9,2% и 7,5% соответственно. Сравнение показателей в зависимости от количества детей также подтверждает, что клиенты без детей лучше погашают кредиты (7,54%). Но в таблице также отражено, что клиенты с 5 детьми ни разу не пропускали сроки погашения. Учитывая их небольшое количество среди всех клиентов, можно воспринять это, как недостаточная выборка. Наличие детей предполагает бОльшие расходы и, соответственно, более высокие риски невозврата.

Также в данных присутствуют клиенты с 20 детьми, что является достаточно аномальным, т.к. у всех остальных клиентов не больше 5 детей. Это может быть обусловлено ошибкой при заполнении данных или предварительной фильтрацией клиентов от 6 до 19 детей перед сохранением файла с данными. Поскольку их доля составляет всего лишь 0,35% от общего количества, они не оказывают существенного влияния на результаты исследования.

- Наличие зависимости между семейным положением и возвратом кредита в срок

In [39]:
# создание таблицы о семейном положении и задолженности
debt_and_family = pd.DataFrame()
debt_and_family['count_family'] = df.groupby('family_status')['debt'].count()
debt_and_family['have_debt'] = df.groupby('family_status')['debt'].sum()
debt_and_family['share_of_debt'] = round(debt_and_family['have_debt'] / debt_and_family['count_family'] * 100, 2)
debt_and_family

Unnamed: 0_level_0,count_family,have_debt,share_of_debt
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2810,274,9.75
в разводе,1195,85,7.11
вдовец / вдова,959,63,6.57
гражданский брак,4163,388,9.32
женат / замужем,12344,931,7.54


**Вывод**

Семейное положение зависит на сроки возврата кредита, исходя из жизненного опыта клиента. Если он никогда не состоял в официальных отношениях, вероятность невозврата выше. Доля тех, кто не был женат или замужем и при этом имели задолженность, составляют 9,75%, в гражданском браке - 9,32%. Наименьшие долги имеют те клиенты, которые раньше состояли в браке, вдовы и вдовцы - 6,57% и разведенные - 7,11%. Состоящие в официальном браке клиенты не платят вовремя кредит в 7,54% случаев от общего количества зарегистрировавших брак.

- Наличие зависимости между уровнем дохода и возвратом кредита в срок

In [40]:
# создание таблицы о доходах и задолженности
debt_and_income = pd.DataFrame()
debt_and_income['count_children'] = df.groupby('income_group')['debt'].count()
debt_and_income['have_debt'] = df.groupby('income_group')['debt'].sum()
debt_and_income['share_of_debt'] = round(debt_and_income['have_debt'] / debt_and_income['count_children'] * 100, 2)
debt_and_income

Unnamed: 0_level_0,count_children,have_debt,share_of_debt
income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
высокий,5368,374,6.97
выше среднего,5366,459,8.55
ниже среднего,5369,481,8.96
низкий,5368,427,7.95


**Вывод**

Из 4 групп клиентов, ранжированных по доходам, больше всего долгов имеют клиенты с доходами ниже среднего и выше среднего, 8,96% и 8,55% соответственно. Доля клиентов с высокими доходами - 6,97%, меньше, чем в остальных группах. Доля клиентов с низкими доходами составляет 7,95%, ниже, чем у клиентов со средними доходами, что предположительно обусловлено более осознанным отношением к деньгам, которых может не хватать при нерациональном их использовании. Вместе с тем, именно граждане со средним доходом являются наиболее многочисленной группой, в которой наибольшее количество потенциальных клиентов. Разница с гражданами с низкими доходами не является существенной, а значит, данный показатель зависимости не может являться достаточным основанием для выбора клиентов с низкими доходами вместо клиентов со средними доходами.

- Влияние разных целей кредита на его возврат в срок

In [41]:
# создание таблицы о целях кредита и задолженности
debt_and_purpose = pd.DataFrame()
debt_and_purpose['count_children'] = df.groupby('purpose_category')['debt'].count()
debt_and_purpose['have_debt'] = df.groupby('purpose_category')['debt'].sum()
debt_and_purpose['share_of_debt'] = round(debt_and_purpose['have_debt'] / debt_and_purpose['count_children'] * 100, 2)
debt_and_purpose

Unnamed: 0_level_0,count_children,have_debt,share_of_debt
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,4308,403,9.35
нежвижимость,10814,782,7.23
образование,4014,370,9.22
свадьба,2335,186,7.97


**Вывод**

Из 4 категорий целей кредита наиболее надежными заемщиками являются клиенты, которые покупают недвижимость - 7,23%. Наименее надежные те, которые приобретают автомобиль (9,35%) или вложились в образование (9,22%). Доля клиентов, взявших средства на свадьбу и просрочивших выплату кредита, составляет 7,97%.

## Шаг 4. Общий вывод

Таким образом, в ходе данного исследования было выявлено, что существует зависимость между возвратом кредита в срок и рядом факторов. Во-первых, клиенты без детей являются более платежеспособными и в меньшей степени склонны к просрочке погашения кредитов. Доля невыплативших своевременно кредит составляет 7,5%, в отличие от клиентов с детьми, доля которых - 9,2%.

Во-вторых, на кредитоспособность клиента влияет семейное положение, в особенности то, насколько негативным был опыт клиента. Потерявшие супруга или супругу и разведенные менее склонны к неоплатам кредита, доля непогасивших кредит вовремя - 6,57% и 7,5% соответственно. При этом доля тех, кто не был в официальных отношениях или проживал в гражданском браке, составляет 9,75% в 9,32% соответственно.

В-третьих, граждане с высокими доходами, как правило, реже пропускают сроки погашения кредита. Доля непогасивших вовремя составляет 6,97%. А вот разница невыплат между гражданами с низкими и средними доходами незначительна и находится в пределах примерно 1%.

В-четвертых, ипотечные заемщики являются более надежными клиентами, чем покупатели автомобилей или взявшие образовательный кредит. 7,23% ипотечных заемщиков не платят вовремя кредит. Также более надежными являются клиенты, целями кредита которых - финансирование свадьбы. Их доля невыплат составляет 7.97%.