# Исследование надёжности заёмщиков

___Описание проекта___:

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

___Описание данных___:

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

## Загрузка датасетов и обзор данных

In [1]:
import pandas as pd
try: 
    data = pd.read_csv('data.csv')
except: 
    data = pd.read_csv('/datasets/data.csv')
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


**Вывод** 
1) Есть пропущенные значения в столбцах 'days_employed' и 'total_income'

2) В столбце 'days_employed'(дней трудового стажа) есть отрицательные значения и есть аномально большие значения. Вероятно, отрицательные значения указаны в днях, а положительные в часах.

3) В столбце 'education' присутствуют явные дубли

## Предобработка данных

### Обработка пропусков

Выясним откуда взялись пропуски. Оставим только строки с пропущщенными значениями в столбце 'days_employed':

In [2]:
data[data['days_employed'].isna()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


Сравним совпадают ли строки с пропущенными значениями в столбцах 'days_employed' и 'total_income':

In [3]:
if data['days_employed'].isna().count() == data['total_income'].isna().count():
    print('Проверка показала что в столбцах \'days_employed\' и \'total_income\' значения пропущены в одних и тех же строках')
else:
    print('Проверка показала что в столбцах \'days_employed\' и \'total_income\' значения пропущены в разных строках')

Проверка показала что в столбцах 'days_employed' и 'total_income' значения пропущены в одних и тех же строках


Возможно, это те кто отказался предоставить данные о своей работе. Так как цель анализа не связана с доходом и стажем, заполним пропущенные значения, медианными значениями.

Предварительно исправляем значения в столбце 'days_employed' - убираем знак '-', переводим часы в дни

In [4]:
data.loc[data['days_employed'] > 0, 'days_employed'] = data.loc[data['days_employed'] > 0, 'days_employed'] / 24
data['days_employed'] = data['days_employed'].apply(abs)
days_employed_mean = data['days_employed'].mean()
total_income_mean = data['total_income'].mean()
data['days_employed'] = data['days_employed'].fillna(days_employed_mean)
data['total_income'] = data['total_income'].fillna(total_income_mean)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод**
Пропущенные значения были одновременно в двух столбцах одних и тех же строк(трудовой стаж и доход), что веоятно связано с отказом некоторой части аудитории, предоставлять данные о доходах. Возможно был выдан кредит без подтверждения дохода.

Так как эти данные не влияют на цель анализа, то они были заменены на мединые значения.

### Замена типа данных

Переведем типы данных методом astype('int'), так как метод достаточно простой

In [5]:
data['days_employed'] = data['days_employed'].astype('int')
data['total_income'] = data['total_income'].astype('int')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


**Вывод** Для удобства были переведены в целочисленный формат, значения столбцов 'days_employed' и 'total_income'

### Обработка дубликатов

Проверим таблицу на явные дубли. Выведем уникальные значения столбцов 'education', 'family_status', 'income_type', 'purpose'

In [6]:
display(data['education'].unique())
display(data['family_status'].unique())
display(data['income_type'].unique())
display(data['purpose'].unique())

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

В столбце 'education' присутствуют явные дубли. Приведем все значения в нижний регистр:

In [7]:
data['education'] = data['education'].str.lower()
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Приведем столбец 'family_status' к единому стилю и поменяем регистр во всех значениях на нижний:

In [8]:
data['family_status'] = data['family_status'].str.lower()
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

**Вывод** В столбце 'education' присутствовали явные дубли из за разного регистра в значениях, а в столбце 'family_status' значения были написаны разным стилем(разный регистр у разных значений). Вероятно разный регистр появился из за человеческого фактора. Значения в этих столбцах приведены к единому, низкому регистру.

В столбце 'children' присутствуют отрицательные числа, вероятно это человеческий фактор. Оставим значения модулей чисел:

In [9]:
data['children'] = data['children'].abs()
data['children'].unique()

array([ 1,  0,  3,  2,  4, 20,  5])

Удалим дубликаты

In [10]:
data = data.drop_duplicates()
data.duplicated().sum()

0

### Лемматизация

Выделим уникальные слова столбца 'purpose', проведем лемматизацию и отсортируем их по убыванию частоты упоминания

In [11]:
from pymystem3 import Mystem
m = Mystem()

lemmas = m.lemmatize(' '.join(data['purpose'].unique()))
lemmas
from collections import Counter
Counter(lemmas).most_common()

[(' ', 96),
 ('покупка', 10),
 ('недвижимость', 10),
 ('автомобиль', 9),
 ('образование', 9),
 ('жилье', 7),
 ('с', 5),
 ('операция', 4),
 ('на', 4),
 ('свой', 4),
 ('свадьба', 3),
 ('строительство', 3),
 ('получение', 3),
 ('высокий', 3),
 ('дополнительный', 2),
 ('для', 2),
 ('коммерческий', 2),
 ('жилой', 2),
 ('подержать', 2),
 ('заниматься', 2),
 ('сделка', 2),
 ('приобретение', 1),
 ('сыграть', 1),
 ('проведение', 1),
 ('семья', 1),
 ('собственный', 1),
 ('со', 1),
 ('профильный', 1),
 ('сдача', 1),
 ('ремонт', 1),
 ('\n', 1)]

### Категоризация данных

Для построения сводных таблиц разобъем на категории те столбцы в которых присутствует большое количество значений

Разобъем цели получения кредита на крупные категории и добавим их в таблицу отдельным столбцом 'purpose_group'

In [12]:
def purpose_grouping(data_purpose):
    lemmas = m.lemmatize(data_purpose)
    if 'жилье' in lemmas or 'недвижимость' in lemmas:
        return 'недвижимость'
    if 'автомобиль' in lemmas:
        return 'автомобиль'
    if 'образование' in lemmas:
        return 'образование'
    if 'свадьба' in lemmas:
        return 'свадьба'
    else:
        return 'прочее'

data['purpose_group'] = data['purpose'].apply(purpose_grouping)
data['purpose_group'].value_counts()

недвижимость    10811
автомобиль       4306
образование      4013
свадьба          2324
Name: purpose_group, dtype: int64

Добавим категорию с информацией о налиции без детей\1-2 ребенка\многодетный

In [13]:
def children_grouping(data_children):
    if data_children == 0:
        return 'без детей'
    if 1 <= data_children <=2:
        return '1-2 ребенка'
    else:
        return 'многодетный'

data['children_group'] = data['children'].apply(children_grouping)
data['children_group'].value_counts()

без детей      14091
1-2 ребенка     6907
многодетный      456
Name: children_group, dtype: int64

Теперь добвим категорию с доходом в зависимости от значения столбца с ежемесячным доодом

In [14]:
def income_grouping(data_income):
    if data_income == 0:
        return 'нет дохода'
    if 0 < data_income <= data['total_income'].quantile(.3):
        return 'низкий доход'
    if data['total_income'].quantile(.3) < data_income <= data['total_income'].quantile(.6):
        return 'средний доход'
    if data['total_income'].quantile(.6) < data_income:
        return 'высокий доход'

data['income_group'] = data['total_income'].apply(income_grouping)
data['income_group'].value_counts()

средний доход    7559
высокий доход    7459
низкий доход     6436
Name: income_group, dtype: int64

**Вывод** Самая частая цель получения кредита - 'недвижимость'

## Выявление закономерностей

### Зависимость между наличием детей и возвратом кредита в срок

In [15]:
data_pivot_children = data.pivot_table(index=['children_group'], columns='debt', values='total_income', aggfunc='count')
data_pivot_children.columns = ['no_debt', 'debt']
data_pivot_children['percent_no_debt'] = data_pivot_children['no_debt'] / (data_pivot_children['no_debt'] + data_pivot_children['debt'])
data_pivot_children

Unnamed: 0_level_0,no_debt,debt,percent_no_debt
children_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1-2 ребенка,6268,639,0.907485
без детей,13028,1063,0.924562
многодетный,417,39,0.914474


**Вывод** Заемщики без детей реже всего имеют задолженности, чаще всего задолженность имеют заемщики с 1-2 детьми. Зависимость по категориям в пределах 1,7%

### Зависимость между семейным положением и возвратом кредита в срок

In [16]:
data_pivot_family_status = data.pivot_table(index=['family_status'], columns='debt', values='total_income', aggfunc='count')
data_pivot_family_status.columns = ['no_debt', 'debt']
data_pivot_family_status['percent_no_debt'] = data_pivot_family_status['no_debt'] / (data_pivot_family_status['no_debt'] + data_pivot_family_status['debt'])
data_pivot_family_status

Unnamed: 0_level_0,no_debt,debt,percent_no_debt
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в разводе,1110,85,0.92887
вдовец / вдова,896,63,0.934307
гражданский брак,3763,388,0.906529
женат / замужем,11408,931,0.924548
не женат / не замужем,2536,274,0.902491


**Вывод** Чаще всего задолженность имеют заемщики со статусом не женат/ не замужем, реже всего вдовы / вдовцы. Зависимость по категориям в пределах 3,2%

### Зависимость между уровнем дохода и возвратом кредита в срок

In [17]:
data_pivot_income = data.pivot_table(index=['income_group'], columns='debt', values='total_income', aggfunc='count')
data_pivot_income.columns = ['no_debt', 'debt']
data_pivot_income['percent_no_debt'] = data_pivot_income['no_debt'] / (data_pivot_income['no_debt'] + data_pivot_income['debt'])
data_pivot_income


Unnamed: 0_level_0,no_debt,debt,percent_no_debt
income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
высокий доход,6891,568,0.92385
низкий доход,5913,523,0.918738
средний доход,6909,650,0.91401


**Вывод** Чаще всего задолженность имеют заемщики со средним доходом, реже всего заемщики с высоким доходом.
Зависимость по категориям в пределах 0,9%


### Влияние цели кредита на его возврат в срок

In [18]:
data_pivot_purpose = data.pivot_table(index=['purpose_group'], columns='debt', values='total_income', aggfunc='count')
data_pivot_purpose.columns = ['no_debt', 'debt']
data_pivot_purpose['percent_no_debt'] = data_pivot_purpose['no_debt'] / (data_pivot_purpose['no_debt'] + data_pivot_purpose['debt'])
data_pivot_purpose

Unnamed: 0_level_0,no_debt,debt,percent_no_debt
purpose_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3903,403,0.90641
недвижимость,10029,782,0.927666
образование,3643,370,0.9078
свадьба,2138,186,0.919966


**Вывод** Чаще всего задолженность имеют заемщики с кредитом на атомобиль, реже всего заемщики с кредитом на недвижимость.
Зависимость по категориям в пределах 2,1%

## Общий вывод

Больше всего отсутствие задолженности зависит от семеного пложения - интервал между максимальным и минимальным значением равен 3,2%

Меньше всего отсутствие задолженности зависит от уровня дохода - интервал между максимальным и минимальным значением равен 0,9%