## Исследование надежности заемщиков

### Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга

---

### <a id="stepend"> Оглавление</a>

- [Импорт библиотек, данных и получение первичной информации](#step1) </n>
- [Предобработка данных](#step2)
- [Лемматизация](#step3)
- [Категоризация данных](#step4)
- [Ответы на вопросы](#step5)
- [Общий вывод](#step6)

---

### План исследования
- заполнить пропущенные значения;
- обработать дубликаты;
- привести к нижнему регистру значения категорий в столбцах;
- изменить тип данных в столбцах days_employed и total_income на целочисленный;
- произвести категоризацию уровней дохода;
- произвести категоризацию целей получения кредита в столбце purpose.

---

#### Ответить на вопросы:
- Есть ли зависимость между количеством детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?

---

#### Написать общий вывод.

### <a id='step1'>Импорт библиотек, данных и получение первичной информации</a>

In [1]:
# импорт библиотек
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
from scipy import stats

In [2]:
# импортируем датасет
data = pd.read_csv('')

In [3]:
# первичное представление о данных
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [4]:
# количество уникальных значений во всех
for column in data.columns:
     print(data[column].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
-986.927316     1
-7026.359174    1
-4236.274243    1
-6620.396473    1
-1238.560080    1
               ..
-2849.351119    1
-5619.328204    1
-448.829898     1
-1687.038672    1
-582.538413     1
Name: days_employed, Length: 19351, dtype: int64
35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64
среднее   

In [5]:
# количество пропущенных значений в датасете
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [6]:
# количество дубликатов в датасете
data.duplicated().sum()

54

In [7]:
# первые пять строк датасета
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


#### Вывод

#### Наименования столбцов и их содержание:
- children — количество детей в семье;
- days_employed — общий трудовой стаж в днях;
- dob_years — возраст клиента в годах;
- education — уровень образования клиента;
- education_id — идентификатор уровня образования;
- family_status — семейное положение;
- family_status_id — идентификатор семейного положения;
- gender — пол клиента;
- income_type — тип занятости;
- debt — имел ли клиент задолженность по возврату кредитов;
- total_income — ежемесячный доход;
- purpose — цель получения кредита.

--- 

#### Обнаруженные неточности в данных:
- в столбце children есть отрицательное количество детей и также аномально-высокое количество детей почти у 80 человек;
- в столбцах days_employed и total_income данные представлены не в целочисленном формате. Также есть отрицательные и пропущенные значения;
- в столбцах education, family_status и purpose одинаковые по значению категории записаны разным регистром;
- в столбцах gender и total_income есть пропущенные значения.

### <a id='step2'>Предобработка данных</a>

In [8]:
# избавимся от отрицательных и аномально-высоких значений в столбце children
data['children'] = data['children'].replace([20, -1], [2, 1])

# проверка
data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [9]:
# преобразуем отрицательные значения в столбце total_income в положительные
data['days_employed'] = data['days_employed'].abs()

# проверка
data['days_employed'].min()

24.14163324048118

In [10]:
# заполним отсутствующие значения в столбце days_employed медианным значением отработанных дней для каждого типа занятости

median_days = data.groupby(['income_type']).agg({'days_employed' : 'median'}) # таблица с медианными значениями для типов занятости

# цикл, который заменяет пропущенные значения в days_employed
for inc_type in median_days.index:
    data.loc[data['income_type'] == inc_type, 'days_employed']= \
    data.loc[data['income_type'] == inc_type, 'days_employed'].fillna(median_days.loc[inc_type, 'days_employed'])
    
# проверка
data['days_employed'].isna().sum()

0

In [11]:
# заполним отсутвующие значения в столбце total_income медианным значением ежемесячного заработка для каждого типа занятости

median_income = data.groupby(['income_type']).agg({'total_income' : 'median'}) # таблица с медианными значениями для типов занятости

# цикл, который заменяет пропущенные значения в total_income
for inc_type in median_income.index:
    data.loc[data['income_type'] == inc_type, 'total_income']= \
    data.loc[data['income_type'] == inc_type, 'total_income'].fillna(median_income.loc[inc_type, 'total_income'])
    
# проверка
data['total_income'].isna().sum()

0

In [12]:
# значения в столбцах days_empoyed и total_income приведем к целочисленным значениям
data[['days_employed', 'total_income']] = data[['days_employed', 'total_income']].astype('int64')

# проверка
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int64 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int64 
 11  purpose           21525 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


In [13]:
# меняем отсутствующее значение в столбце gender
data['gender'] = data['gender'].replace('XNA', 'M')

In [14]:
# проверка
data['gender'].value_counts()

F    14236
M     7289
Name: gender, dtype: int64

In [15]:
# приведем столбцы датасета к единому регистру
data.columns = data.columns.str.lower()

In [16]:
# первые пять строк датасета
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


In [17]:
# удаляем дубликаты с заменой индекса
data = data.drop_duplicates().reset_index(drop=True)

In [18]:
# проверка
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### <a id='step3'>Лемматизация</a>

In [None]:
from pymystem3 import Mystem # импортиуем библиотеку pymystem3
m = Mystem()

data['purpose_lemma'] = data['purpose'].apply(m.lemmatize) # добавляем в таблицу столбец с леммами для цели кредита

# создаем функцию для выделения лемм для слов в столбце
lemmas_list = data['purpose_lemma'].values # получаю список значений в столбце, чтобы позже поместить в один большой список all_lemmas_list
all_lemmas_list = []
for sublist in lemmas_list: # из каждого подсписка в общем списки извлекаем лемму
    for element in sublist:
        all_lemmas_list.append(element)
        
from collections import Counter # подсчитываем количество лемм с помощью метода Counter
Counter(all_lemmas_list)

In [19]:
# проверка
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


### <a id='step4'>Категоризация данных</a>

In [20]:
# разделим столбец total_income на пять категорий в зависимости от ежемесячного показателя дохода

# разбиваем на категории с помощью квантилей
data['total_income'].quantile([.0, .2, .4, .6, .8])

# каждому диапазону значений присвоим категорию дохода - очень низкий, низкий, средний, высокий, очень высокий
def income(total_income):
    if total_income <= 21000:
        return 'очень низкий уровень дохода'
    if 21001 <= total_income <= 50000:
        return 'низкий уровень дохода'
    if 50001 <= total_income <= 100000:
        return 'средний уровень дохода'
    if 100001 <= total_income <= 160000:
        return 'высокий уровень дохода'
    return 'очень высокий уровень дохода'

# создаем в таблице столбце income_category и в него помещаем полученные значения
data['income_category'] = data['total_income'].apply(income)

In [21]:
# напишем фунцию для категоризации целей кредита в столбце purpose на основании полученных ранее лемм
def credit_purpose(purpose):
    if 'недвиж' in purpose or 'жиль' in purpose:
        return 'недвижимость'
    if 'свадьб' in purpose:
        return 'свадьба'
    if 'образов' in purpose:
        return 'образование'
    if 'автомоб' in purpose:
        return 'автомобиль'
    
# применяем функцию в столбцу purpose
data['purpose'] = data['purpose'].apply(credit_purpose)

In [22]:
# проверка
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,income_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость,очень высокий уровень дохода
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль,высокий уровень дохода
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость,высокий уровень дохода
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование,очень высокий уровень дохода
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба,высокий уровень дохода


### <a id='step5'>Ответы на вопросы</a>

#### Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [23]:
# соберем сводную таблицу и рассчитаем среднее значечение параметра debt
data.pivot_table(index='children', values='debt', aggfunc = 'mean').round(4)

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.0754
1,0.0916
2,0.0949
3,0.0818
4,0.0976
5,0.0


- Более надежны в своевременной выплате кредита люди, у которых вообще нет детей;
- У людей, с пятью детьми - полное отсутствие задолженностей. Либо они выплачивают кредиты в срок, либо банки не выдают им кредиты вовсе. Скорее всего, второе;
- Чаще остальных задерживают выплату по кредиту люди (семьи) с одним, двумя или четырьями детьми (казалось бы, семьи с одним и двумя детьми должны возвращать кредиты быстрее, чем с четырьмя, но нет);
- Семьи с тремя детьми возвращают кредиты быстрее, чем иным количеством детей (кроме семей без детей или с пятью детьми).

---

Зависимость между наличием детей и возвратом кредита в срок подтверждена.

#### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [24]:
# соберем сводную таблицу и рассчитаем среднее значением параметра debt
data.pivot_table(index='family_status', values='debt', aggfunc='mean').round(4)

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
Не женат / не замужем,0.0975
в разводе,0.0711
вдовец / вдова,0.0657
гражданский брак,0.0932
женат / замужем,0.0754


- Меньше остальных склонны задерживать выплату по кредитам люди из категории "вдовец/вдова". Вполне возможно, это связано с тем, что люди берут кредиты на определенные (экстренные) нужды и возвращают кредит в срок. Также они не хотят усугублять свое финансовое положение и больше рассчитывают на свои собственные средства;
- Люди в категориях "в разводе" и 'женат/замужем' практически схожи между собой в сроках выплаты кредита. Люди, принадлежащие к категории "в разводе" рассчитывают только на самих себя или они вынуждены выплачивать алименты. Семейные же пары, скорее всего, вместе составляют бюджет и, если прибегают к заемным средстам, то делают это осознанно и стараются возвращать их в срок. 
- Больше остальных не выплачивают кредиты в срок люди из категорий "гражданский брак" и "не женат/не замужем". Очевидно, что такие показатели вызваны невысокоим уровнем личной ответственности перед собой и отсутвием обязательств перед другими людьми.

---

Зависимость между семейным положением и возвратом кредита в срок подтверждена.

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [None]:
# соберем сводную и рассчитаем среднее параметра debt
data.pivot_table(index='income_category', values='debt', aggfunc='mean').round(4)

- Чаще остальных не выплачивают кредит в срок люди с очень низким уровнем дохода. Они никогда не возвращают кредиты в срок. Это может быть обусловлено нехваткой денежных средств, жизнью в стиле "от зарплаты до зарплаты" + добавляют займы у друзей/знакомых/коллег и в итоге вовремя не получается вернуть ни банку, ни знакомым;
- Люди с высоким уровнем дохода расположились на втором месте в нашем "анти-топе". Задержки по выплате кредита в этом случае могут быть связаны с общим отношением к кредитам среди этой группы людей. Money nothing matters. Они свободно относятся к деньгам и переплаты по процентам их не стесняют;
- На третьем и четвертом месте люди с очень высоким и средним уровнем дохода. Несвоевремнные выплаты по кредитам людьми средного класса могут быть связаны с внезапными расходами на детей/ремонт/бытовую технику и др, из-за чего не всегда получается вовремя вернуть заемные средства. Очевидно, люди с очень высоким уровнем дохода не всегда вовремя выплачивают кредит по той же причины, что и люди с высоким уровнем дохода;
- Самыми надеждными заемщиками являются люди с низким уровнем дохода. В отличие от "очень низкого уровня" они более свободны в денежных средствах, предпочитают не занимать у друзей/знакомых и серьезные относятся к каждому заработанному рублю.
---
Зависимость между урвонем дохода и возвратом кредита в срок подтвеждена.

#### Как разные цели получения кредита влияют на его возврат в срок?

In [None]:
# соберем сводную таблицу и посмотрим на среднее параметра debt
data.pivot_table(index='purpose', values='debt', aggfunc='mean').round(4)

- Больше всех "не любят" возвращать кредит в срок люди, которые с целями "автомобиль" и "образование". В первом случае это может быть связано с тем, что люди берут к кредит не самую дешевую машину и просто не рассчитывают свой бюджет. Также стоит учесть дополнительные расходы на обслуживание транспортного средства. Во втором случае это может быть связано с тем, что люди рассчитывают найти работу сразу после окончания обучения или в процессе обучения, но, не у всех, взявших кредит, получается это сделать;
- Люди, которые берут кредит на свадебные расходы - посередине - но все равно с достаточно высоким показателем. Очевидно, что не учтены дополнительные расходы и бюджет свадьбы;
- Реже остальных выплату оплату кредита задерживают люди, берущие кредит для оплаты или покупки недвижимости (ипотека!). Как правило, они занимают больше суммы и относятся к этому достаточно серьезно, ведь даже 1% может составить для них значительную сумму.

### <a id='step6'>Общий вывод<a/>

- Наличие детей не влияет на возврат кредита в срок. Точнее будет сказать - отсутствие детей влияет на возврат кредита в срок. Ведь дети - это не только радости жизни, но и дополнительные расходы, а подчас и непредвиденные расходы;
- Семейное положение напрямую влияет на возврат кредита в срок. Если заемщик состоит в браке/отношениях, то вероятность, что он вернет кредит в срок, гораздо больше, чем если бы он не состоял в них;
- Правило "чем выше уровень дохода, тем выше вероятность возврата кредита в срок" не подтвердилось, скорее наоборот. Лучше всех возвращают кредиты в срок люди с низким уровнем дохода, а хуже всех люди с очень низким уровнем дохода и высоким уровнем дохода;
- Цель получения кредита напрямую влияет возврат его в срок. Чем больше сумма займа, например, ипотека, тем больше вероятность своевременного возврата.