## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

Импорт библиотек

In [1]:
import pandas as pd
from pymystem3 import Mystem

In [2]:
# чтение файла и сохранение в переменную data
data = pd.read_csv('/datasets/data.csv')

Выведим первые 10 строк таблицы data

In [3]:
# первые 10 строк таблицы data
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Выведим последние 10 строк таблицы *data*

In [4]:
data.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


Получим общую информацию о данных в таблице *data*

In [5]:
# получение общей информации о данных в таблице data
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Общая информация о таблице data.

Таблица состоит из 12 столбцов

* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита

### Вывод

Таблица содержит информацию о клиентах банка,его семейном положение,возрасте,доходах и типу занятости.У нас имееются пропущенные значения в столбцах *days_employed* и *total_income*, также бросается в глаза что значения в столбце *education* заполнены разным регистром. Столбец *days_employed* имеет отрицательные значения так не должго быть учитывая что это трудовой стаж в днях.

### Шаг 2. Предобработка данных

### Обработка пропусков

Выведим сумму пропущеных значений по столбцам

In [6]:
# пропущенные значения в таблице *data*
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В столбца *days_employed* и *total_income* одинаковая сумма пропущенных значений.

Давайте посмотрим везде ли где пропущенны значения в столбце *days_employed* также пропущены в столбце *total_income*

In [7]:
# выводим пустые значения по столбцам days_employed и total_income
data[(data['total_income'].isnull()) & (data['days_employed'].isnull())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Действительно так и есть, если есть пропуск в столбце *days_employed* также значение в столбце *total_income* окажется пустым

Заполним пропущенные значения в столбце *total_income*

In [8]:
# сгруппируем значения по income_type и заполним пропущенные значения медианной total_income
data['total_income'] = data.groupby(['income_type'])['total_income'].apply(lambda x: x.fillna(x.median()))

Заменим отрицательные значения на положительные в столбце *days_employed*

In [9]:
# применим abs значения для каждого значения
data['days_employed'] = data['days_employed'].apply(abs)

Взгляним,на сгруппирированные по *income_type* минимальные, максимальные и средние значения по столбцу *days_employed*

In [10]:
data.groupby('income_type').agg({'days_employed':['min', 'max', 'mean']})

Unnamed: 0_level_0,days_employed,days_employed,days_employed
Unnamed: 0_level_1,min,max,mean
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
безработный,337524.466835,395302.838654,366413.652744
в декрете,3296.759962,3296.759962,3296.759962
госслужащий,39.95417,15193.032201,3399.896902
компаньон,30.195337,17615.563266,2111.524398
пенсионер,328728.720605,401755.400475,365003.491245
предприниматель,520.848083,520.848083,520.848083
сотрудник,24.141633,18388.949901,2326.499216
студент,578.751554,578.751554,578.751554


Стаж работы в 1000 лет, с этими данными явно что-то не так,возможно они были в другом формате даты или применили неправильный подход при расчете этого столбца 

Так как заменить пропущенные значения мы не можем, в дальнейшем гам этот столбец не понадобится,давайте его удалим с таблицы

In [11]:
#удаление столбца *days_employed*
data = data.drop(['days_employed'], axis=1)

In [12]:
# убедимся что столбец был удален
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 11 columns):
children            21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(1), int64(5), object(5)
memory usage: 1.8+ MB


Убедимься что пропусков больше нет!

In [14]:
data.isnull().sum()

children            0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Вывод

Избавились от пропусков в столбце *total_income* , причиной пропусков возможны ошибка при выгрузке с базы,
еще как вариант что ежемесячный доход это чувствительная информация и клиент просто не захотел указывать.

Заполнили пропущенные значения *total_income* медианной сгруппирируеммой по *income_type*.

## Артефакты

Значения которые не отражают действительность, были замечены в столбце *dob_years* в *dob_years* значение возраста равным 0 на средний возраст.

Посмотрим dob_years равен 0 к какому типу income_type относятся клиенты

In [15]:
data[data['dob_years'] == 0]['income_type'].value_counts()

сотрудник      55
пенсионер      20
компаньон      20
госслужащий     6
Name: income_type, dtype: int64

Заменим все 0 значения в столбце dob_years на средние значение dob_years по income_type

In [16]:
data['dob_years'] = data.groupby('income_type')['dob_years'].apply(lambda x: x.replace(0, x.mean()))

In [17]:
# проверяем минимальное значения убеждаемся что 0 значений нет 
data['dob_years'].min()

19.0

In [18]:
# уникальные значения children и количество записей
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Что мы видим, 20 детей многовато возможно ошибочно поставлен ноль, и отрицательных значений быть не должно, исправляем

In [19]:
data['children'] = data['children'].replace(20, 2)
data['children'] = data['children'].replace(-1, 1)

In [20]:
data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

### Замена типа данных

Заменим тип dob_years на целочисленный в ходе того что мы заменяли нули на средний возраст тип данных поменялся на вещественный

In [21]:
# метод astype заменит на целочисленный
data['dob_years'] = data['dob_years'].astype('int')

In [22]:
# проверяем поменялся ли тип данных
data['dob_years'].dtype

dtype('int64')

### Вывод

После наших замен артефоктов в столбце *dob_years* помелся тип данных с целочисленного на вещественный, тип был возвращен на целочисленный,значения возраста лучше хранить в целочисленном формате

### Обработка дубликатов

In [23]:
print('Дубликатов в таблице:', data.duplicated().sum())

Дубликатов в таблице: 54


Сейчас самое время привести столбец *education* к одному регистру

In [24]:
# все значения в education приводим в нижний регистр
data['education'] = data['education'].str.lower()
data['education'].head(10)

0     высшее
1    среднее
2    среднее
3    среднее
4    среднее
5     высшее
6     высшее
7    среднее
8     высшее
9    среднее
Name: education, dtype: object

Снова посчитаем дубликаты в таблицы

In [25]:
print('Дубликатов в таблице:', data.duplicated().sum())

Дубликатов в таблице: 71


Избавимься от дублей в таблице

In [26]:
data = data.drop_duplicates()

In [27]:
print('Дубликатов в таблице:', data.duplicated().sum())

Дубликатов в таблице: 0


### Вывод

В таблице первоначально было 54 полностью повтарявшихся строк, привели столбец *education* в единый формат регистра, пересчитали количество дублей оказалось 71,избавились от этих лишних строк.Дубликаты могли возникнуть при выгрузке базы например при соединение таблиц.

### Лемматизация

Проведем лемматизацию столбца *purpose*, для дольнейшей категоризации целей кредита 

Создаем функцию lemmatization для одной строки, в переменную lemma сохраняем лемматизированные значения столбца *purpose*

In [31]:
m = Mystem();
def lemmatization(row):
    purpose = row['purpose']
    lemma = ''.join(m.lemmatize(purpose))
    return lemma


Прменяем функцию, сохраняем значения в новый столбец *purpose_lemma*

In [32]:
data['purpose_lemma'] = data.apply(lemmatization,axis=1);

In [33]:
data.head()

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_lemma
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,покупка жилье\n
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,приобретение автомобиль\n
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,покупка жилье\n
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,дополнительный образование\n
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,сыграть свадьба\n


In [30]:
# уникальные значения 
data['purpose_lemma'].unique()

array(['покупка   жилье \n', 'приобретение   автомобиль \n',
       'дополнительный   образование \n', 'сыграть   свадьба \n',
       'операция   с   жилье \n', 'образование \n',
       'на   проведение   свадьба \n', 'покупка   жилье   для   семья \n',
       'покупка   недвижимость \n',
       'покупка   коммерческий   недвижимость \n',
       'покупка   жилой   недвижимость \n',
       'строительство   собственный   недвижимость \n', 'недвижимость \n',
       'строительство   недвижимость \n',
       'на   покупка   подержать   автомобиль \n',
       'на   покупка   свой   автомобиль \n',
       'операция   с   коммерческий   недвижимость \n',
       'строительство   жилой   недвижимость \n', 'жилье \n',
       'операция   со   свой   недвижимость \n', 'автомобиль \n',
       'заниматься   образование \n',
       'сделка   с   подержанный   автомобиль \n',
       'получение   образование \n', 'свадьба \n',
       'получение   дополнительный   образование \n',
       'покупка   свой 

### Вывод

На основе полученных лемм от целей кредита, можно выделить и категоризировать на такие группы:

1) жилье

2) автомобиль

3) недвижимость

4) свадьба

5) образование


### Категоризация данных

Напишем функцию которая будет принимать на вход *purpose_lemma*, а возвращать категории

In [31]:
def purpose_group(row):
    purpose_lemma = row['purpose_lemma']
    if 'автомобиль' in purpose_lemma:
        return 'автомобиль'
    if 'жилье' in purpose_lemma:
        return 'жилье'
    if 'недвижимость' in purpose_lemma:
        return 'недвижимость'
    if 'свадьба' in purpose_lemma:
        return 'свадьба'
    
    return 'образование'

Проверим функцию purpose_group

In [32]:
row_values = ['профильный   образование \n']
row_columns = ['purpose_lemma']
row = pd.Series(data=row_values, index=row_columns)
purpose_group(row)

'образование'

Функция работает,создадим новый столбец *purpose_group*

In [33]:
data['purpose_group'] = data.apply(purpose_group, axis=1)

In [34]:
# выведим пять первых строк
data.head()

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_lemma,purpose_group
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,покупка жилье \n,жилье
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,приобретение автомобиль \n,автомобиль
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,покупка жилье \n,жилье
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,дополнительный образование \n,образование
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,сыграть свадьба \n,свадьба


In [35]:
data['purpose_group'].value_counts()

недвижимость    6351
жилье           4460
автомобиль      4306
образование     4013
свадьба         2324
Name: purpose_group, dtype: int64

Создадим функцию которая будет принимать на вход количество детей и разбивать на группы

In [36]:
def children_group(children):
    if children == 0:
        return 'нет детей'
    if children > 2:
        return 'более 2'  
    else:
        return '1-2'
    

Применим функцию к столбцу *children*

In [37]:
data['has_children'] = data['children'].apply(children_group)

In [38]:
data['has_children'].value_counts()

нет детей    14091
1-2           6983
более 2        380
Name: has_children, dtype: int64

14091 клиент не имеют детей

6983 клиентов имеют один-два ребенка

380 клиентов имеют более 2 детей 

Выведим статистики по столбцу *total_income*

In [39]:
data['total_income'].describe().round()

count      21454.0
mean      165320.0
std        98187.0
min        20667.0
25%       107624.0
50%       142594.0
75%       195821.0
max      2265604.0
Name: total_income, dtype: float64

По увиденным  процентилям создадим функцию которая будет категоризировать столбец *total_income*

In [40]:
def total_income_group(total_income):
    if total_income < 100000:
        return 'до 100тыс'
    if 100000 <= total_income < 150000:
        return 'от 100тыс-150тыс'
    if 150000 <= total_income < 200000:
        return 'от 150тыс-200тыс'
    else:
        return 'от 200тыс+'
    

In [41]:
print(total_income_group(25000))
print(total_income_group(100000))
print(total_income_group(150001))
print(total_income_group(250000))


до 100тыс
от 100тыс-150тыс
от 150тыс-200тыс
от 200тыс+


In [42]:
data['total_income_group'] = data['total_income'].apply(total_income_group)

In [43]:
data['total_income_group'].value_counts()

от 100тыс-150тыс    7160
от 200тыс+          5067
от 150тыс-200тыс    4764
до 100тыс           4463
Name: total_income_group, dtype: int64

### Вывод

На основе столбца с леммами *purpose_lemma* создали столбец с категориями из пяти пунктов (недвижимость,жилье,автомобиль,образование,cвадьба), добавили столбец *has_children* где клиенты поделены на две категории есть ребенок или нет, поделили клиентов на 4 группы по заработку

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [44]:
data.pivot_table(index=['has_children'], values='debt').sort_values('debt', ascending=False)

Unnamed: 0_level_0,debt
has_children,Unnamed: 1_level_1
1-2,0.092654
более 2,0.081579
нет детей,0.075438


### Вывод

Клиент у которого есть дети чуть чаще остается должником у банка, на 100 заемщиков у которого есть 1-2 ребенка в должниках останутся 9 из них, а на 100 заещиков у которого нет детей лишь 7.Объяснить можно так что клиент выберет обеспечить ребенка,чем оплатить кредит

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [45]:
data_pivot_family_status = data.pivot_table(index=['family_status'],  values='debt')

data_pivot_family_status.sort_values('debt', ascending=False)

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
Не женат / не замужем,0.097509
гражданский брак,0.093471
женат / замужем,0.075452
в разводе,0.07113
вдовец / вдова,0.065693


### Вывод

Что касательно семейного положения клиенты которые имеют статус "Не женат / не замужем" и "гражданский брак" доля задолжнасти примерно одинакова ~9.5%, "женат / замужем" ~7.5%, в статусе "в разводе" 7.1% и 6,5% "вдовец / вдова".

Клиенты которые холосты и состоящие в гражданском браке скорее всего у них нет такого преимущества как семейный бюджет и они чаще остаются в должниках у банка, интересно что у клиентов у которых тоже нет семейного бюджета в разводе или вдовец / вдова
но они меньше всего остаются в должниках у банка пологаю что это жизненный опыт и грамотное финансовое распределение.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [46]:
data.pivot_table(index=['total_income_group'], values='debt').sort_values('debt', ascending=False)

Unnamed: 0_level_0,debt
total_income_group,Unnamed: 1_level_1
от 100тыс-150тыс,0.087151
от 150тыс-200тыс,0.085013
до 100тыс,0.079319
от 200тыс+,0.070653


### Вывод

Более 8,5% клиенты оказываются в должниках с доходом от 100тыс до 200тыс, удивительно что клиенты с доходом до 100тыс подходят к кредиту более ответсвенее всего в 7,9% случае остаются в должниках, касательно клиентов зарабатывающие от 200тыс то процент не возврата в срок составляет 7%

- Как разные цели кредита влияют на его возврат в срок?

In [47]:
data.pivot_table(index=['purpose_group'], values='debt').sort_values('debt', ascending=False)

Unnamed: 0_level_0,debt
purpose_group,Unnamed: 1_level_1
автомобиль,0.09359
образование,0.0922
свадьба,0.080034
недвижимость,0.074634
жилье,0.069058


### Вывод

Самые добросовестные заемщики берущие займ с целью покупки жилья ~7% не возращают в срок, менее добросовестные те кто берет кредит с целью купить автомобиль или заняться образованием ~9%, 8% не возращают в срок заемщики которые хотят сыграть свадьбу.

### Шаг 4. Общий вывод

Портрет клиента который наиболее нежелателен - холостой клиент берущий кредит на покупку автомобиля с доходом в 150тыс-200тыс.
Оптимальный вариант женат/замужем имеет одного ребенка и цель кредита на покупку жилья с доходом от 200тыс и более.