## Исследование надёжности заёмщиков

#### Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

В проекте рассматриваются вопросы
- Есть ли зависимость между количеством детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?

<font color='green'>**<big>Загружаю датасет</big>**</font>

In [1]:
import pandas as pd
data  = pd.read_csv('/datasets/data.csv')
data.head(5)

Unnamed: 0,children,days_employed,dob_days,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [2]:
#print(data.duplicated(subset='education_id', keep='first'))
data.drop_duplicates()
len(data)-len(data.drop_duplicates())

54

In [3]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_days            21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


<font color='green'><big>**Предобработка данных**</big></font>  
*ищу пропущенные значения*

In [4]:
# ищу пропущенные значения 
data.isnull().sum()

children               0
days_employed       2174
dob_days               0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски относят к MAR, если вероятность пропуска может быть определена на основе другой имеющейся в
наборе данных информации (пол, возраст, занимаемая должность, образование…), не содержащей пропуски. В таком случае 
удаление или замена пропусков на значение «Пропуск», как и в случае MCAR, не приведет к существенному искажению результатов.

*заменил на медианное*

In [5]:
data['total_income'] = data['total_income'].fillna(value = data['total_income'].median())
data['days_employed'] = data['days_employed'].fillna(value = data['days_employed'].median())

*Преобразую типы данных float64 в int64*

In [6]:
data['days_employed'] = data['days_employed'].astype('int')
data['total_income'] = data['total_income'].astype('int')
data.head(5)
# После преобразования отбросились значения после запятой, это не существенно

Unnamed: 0,children,days_employed,dob_days,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


*Привожу категориальные переменные к нижнему регистру*

In [7]:
data['education'] = data['education'].str.lower()
data['family_status'] = data['family_status'].str.lower()
data['income_type'] = data['income_type'].str.lower()
data['gender'] = data['gender'].str.lower()
data['purpose'] = data['purpose'].str.lower()

*Ищу некорректные данные в столбце 'children'  
 значения -1 и 20, т.к. их небольшое кол-во заменил на 0, самое повторяющееся значение*

In [8]:
print(data['children'].value_counts())
data.loc[(data['children'] == -1) | (data['children'] == 20),'children']=0
print(data['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
0    14272
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64


*Функция поиска отрицательных и нулевых значений в столбце*

In [9]:
def search_negative(row):
    if row < 0:
        return 'отрицательные'
    elif row == 0:
        return 'нулевые'
    elif row > 0:
        return 'положительные'

*Ищу некорректные данные в столбце ['days_employed']
c первого взгляда есть отрицательные значения, посмотрим сколько их*

In [10]:
data['days_employed'].apply(search_negative).value_counts()

отрицательные    18080
положительные     3445
Name: days_employed, dtype: int64

*преобразую отрицательные значения в столбце "days_employed" в положительные с помощью функции abs()  
и проверяю*

In [11]:
data['days_employed'] = data['days_employed'].abs()
data['days_employed'].apply(search_negative).value_counts()

положительные    21525
Name: days_employed, dtype: int64

*Ищу некорректные данные в столбце ['dob_days'] - возраст клиента в годах*

In [12]:
data['dob_days'].apply(search_negative).value_counts()

положительные    21424
нулевые            101
Name: dob_days, dtype: int64

*заменяю на медианы*

In [13]:
data.loc[data['dob_days'] == 0,'dob_days'] = data['dob_days'].median()
data['dob_days'].apply(search_negative).value_counts()

положительные    21525
Name: dob_days, dtype: int64

*проверяю столбец "education" (образование)*

In [14]:
print(data['education'].value_counts())

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64


*проверяю столбец "education_id"*

In [15]:
print(data['education_id'].value_counts())

1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64


*проверяю столбец "family_status"*

In [16]:
print(data['gender'].value_counts())

f      14236
m       7288
xna        1
Name: gender, dtype: int64


In [17]:
data.loc[data['gender'] == 'xna','gender'] = 'f'
print(data['gender'].value_counts())

f    14237
m     7288
Name: gender, dtype: int64


Значенил "xna" заменил на самую частую категорию - F

*проверяю столбец "family_status"*

In [18]:
print(data['family_status'].value_counts())
# тут вроде все норм

женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64


*проверяю столбец [income_type]*

In [19]:
# проверяю столбец [income_type] 
print(data['income_type'].value_counts())

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64


*проверяю столбец [debt]*

In [20]:
 print(data['debt'].value_counts())
# здесь все норм

0    19784
1     1741
Name: debt, dtype: int64


In [21]:
# проверяю столбец [total_income] на отрицательные значения  
data['total_income'].apply(search_negative).value_counts()

положительные    21525
Name: total_income, dtype: int64

In [22]:
# проверяю столбец [purpose] 
print(data['purpose'].value_counts())

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

*перевожу столбец [days_employed] - трудовой стаж в днях в [y_employed] - трудовой стаж в годах*

In [23]:
# перевожу столбец [days_employed] - трудовой стаж в днях в [y_employed] - трудовой стаж в годах
data['y_employed'] = (data['days_employed']/365).astype('int')
data.head(5)

Unnamed: 0,children,days_employed,dob_days,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,y_employed
0,1,8437,42.0,высшее,0,женат / замужем,0,f,сотрудник,0,253875,покупка жилья,23
1,1,4024,36.0,среднее,1,женат / замужем,0,f,сотрудник,0,112080,приобретение автомобиля,11
2,0,5623,33.0,среднее,1,женат / замужем,0,m,сотрудник,0,145885,покупка жилья,15
3,3,4124,32.0,среднее,1,женат / замужем,0,m,сотрудник,0,267628,дополнительное образование,11
4,0,340266,53.0,среднее,1,гражданский брак,1,f,пенсионер,0,158616,сыграть свадьбу,932


In [24]:
# проверяет количесто полнстью совпадающих строк в DataFrame data
len(data)-len(data.drop_duplicates())

72

<font color='green'><big>**Лемматизация**</big></font>  

*Функция лемматизации и категоризации, не стал разбивать недвижимость на коммерческую и жилую*

In [25]:
from pymystem3 import Mystem
m = Mystem()
def lemma_1(row):
    lemma = m.lemmatize(row) 
    if 'жилье' in lemma or 'недвижимость' in lemma:
        return 'на недвижимость'
    elif 'свадьба' in lemma:
        return 'на свадьбу'
    elif 'автомобиль' in lemma:
        return 'на машину'
    elif 'образование' in lemma:
        return 'на учебу' 
data['purposeL'] = data['purpose'].apply(lemma_1)
print(data['purposeL'].value_counts())

на недвижимость    10840
на машину           4315
на учебу            4022
на свадьбу          2348
Name: purposeL, dtype: int64


<font color='magenta'><b>Комментарий наставника:</b> с лемматизацией к сожалению, пока проблема. Тебе нужно выполнить на этом этапе две вещи:
- сформировать словарь наиболее частых причин заявок;
- лемматизировать purpose в каждой строке (помнишь я рассказывал про apply) и сравнить твой словарь с полученными наборами лемм.
<br> Посмотри еще раз темы стемминг и лемматизация и потрать минут 30 на то, чтобы изучить обсуждения лемматизации в вашем чате лаборатории - я уверен, что там этот вопрос обсуждался много раз и ты сэкономишь массу времени.
</font>

<font color='blue'>Лемматизировал и выделил категории  
на недвижимость  
на учебу  
на свадьбу  
на машину</font>

In [26]:
data.head()

Unnamed: 0,children,days_employed,dob_days,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,y_employed,purposeL
0,1,8437,42.0,высшее,0,женат / замужем,0,f,сотрудник,0,253875,покупка жилья,23,на недвижимость
1,1,4024,36.0,среднее,1,женат / замужем,0,f,сотрудник,0,112080,приобретение автомобиля,11,на машину
2,0,5623,33.0,среднее,1,женат / замужем,0,m,сотрудник,0,145885,покупка жилья,15,на недвижимость
3,3,4124,32.0,среднее,1,женат / замужем,0,m,сотрудник,0,267628,дополнительное образование,11,на учебу
4,0,340266,53.0,среднее,1,гражданский брак,1,f,пенсионер,0,158616,сыграть свадьбу,932,на свадьбу


<font color='green'><big>**Категоризация**</big></font>  

In [27]:
report = data.pivot_table(index = 'education', columns = 'debt', values = 'dob_days', aggfunc = 'count').fillna(0).astype(int)
report

debt,0,1
education,Unnamed: 1_level_1,Unnamed: 2_level_1
высшее,4982,278
начальное,251,31
неоконченное высшее,676,68
среднее,13869,1364
ученая степень,6,0


*Выделил 3 категории по уровею дохода  
< 100 000 нижесреднего  
100 000 < .. <200 000 средний  
 больше 200 000 высокий*

In [28]:
def income_st(row):    
    if  row < 100000:
        return 'ниже среднего'
    elif 100000 <= row < 200000:
        return 'средний'
    elif row >= 200000:
        return 'высокий'  
data['income_status'] = data['total_income'].apply(income_st)
data['income_status'].value_counts()

средний          11996
высокий           5066
ниже среднего     4463
Name: income_status, dtype: int64

In [29]:
data.head()

Unnamed: 0,children,days_employed,dob_days,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,y_employed,purposeL,income_status
0,1,8437,42.0,высшее,0,женат / замужем,0,f,сотрудник,0,253875,покупка жилья,23,на недвижимость,высокий
1,1,4024,36.0,среднее,1,женат / замужем,0,f,сотрудник,0,112080,приобретение автомобиля,11,на машину,средний
2,0,5623,33.0,среднее,1,женат / замужем,0,m,сотрудник,0,145885,покупка жилья,15,на недвижимость,средний
3,3,4124,32.0,среднее,1,женат / замужем,0,m,сотрудник,0,267628,дополнительное образование,11,на учебу,высокий
4,0,340266,53.0,среднее,1,гражданский брак,1,f,пенсионер,0,158616,сыграть свадьбу,932,на свадьбу,средний


In [30]:
#от количества детей
dataf = data.pivot_table(index = ['children'], columns = 'debt', values = 'dob_days', aggfunc = 'count').fillna(0).astype(int)
dataf['%'] = (dataf[1] / (dataf[0] + dataf[1])).map('{:.2%}'.format)
dataf

debt,0,1,%
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13200,1072,7.51%
1,4374,444,9.22%
2,1861,194,9.44%
3,303,27,8.18%
4,37,4,9.76%
5,9,0,0.00%


In [31]:
#от семейного положения
dataf = data.pivot_table(index = ['family_status'], columns = 'debt', values = 'dob_days', aggfunc = 'count').fillna(0).astype(int)
dataf['%'] = (dataf[1] / (dataf[0] + dataf[1])).map('{:.2%}'.format)
dataf

debt,0,1,%
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в разводе,1110,85,7.11%
вдовец / вдова,897,63,6.56%
гражданский брак,3789,388,9.29%
женат / замужем,11449,931,7.52%
не женат / не замужем,2539,274,9.74%


In [35]:
#от уровеньня дохода
dataf = data.pivot_table(index = ['income_status','purposeL'], columns = 'debt', values = 'dob_days', aggfunc = 'count').fillna(0).astype(int)
dataf['%'] = (dataf[1] / (dataf[0] + dataf[1])).map('{:.2%}'.format)
dataf

Unnamed: 0_level_0,debt,0,1,%
income_status,purposeL,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
высокий,на машину,947,86,8.33%
высокий,на недвижимость,2412,173,6.69%
высокий,на свадьбу,519,28,5.12%
высокий,на учебу,830,71,7.88%
ниже среднего,на машину,792,72,8.33%
ниже среднего,на недвижимость,2105,157,6.94%
ниже среднего,на свадьбу,444,44,9.02%
ниже среднего,на учебу,768,81,9.54%
средний,на машину,2173,245,10.13%
средний,на недвижимость,5541,452,7.54%


In [33]:
#от цель кредита
dataf = data.pivot_table(index = ['purposeL'], columns = 'debt', values = 'dob_days', aggfunc = 'count').fillna(0).astype(int)
dataf['%'] = (dataf[1] / (dataf[0] + dataf[1])).map('{:.2%}'.format)
dataf

debt,0,1,%
purposeL,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
на машину,3912,403,9.34%
на недвижимость,10058,782,7.21%
на свадьбу,2162,186,7.92%
на учебу,3652,370,9.20%


# Вывод

Предпочтительней всего выдавать кредиты
1. женатым/замужем, без детей с высоким уровнем дохода с целью покупки недвижимости
2. без детей женатым/замужем на недвижимость
3. на свадьбу и на недвижимость всем
4. с высоким и низким уровнем дохода на недвижимость
