## Исследование надёжности заёмщиков

Кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.



### Общая информация о данных 

In [1]:
import pandas as pd
df = pd.read_csv('/datasets/data.csv')
print(df.head())
df.info()
print(df.duplicated().sum())

   children  days_employed  dob_years education  education_id  \
0         1   -8437.673028         42    высшее             0   
1         1   -4024.803754         36   среднее             1   
2         0   -5623.422610         33   Среднее             1   
3         3   -4124.747207         32   среднее             1   
4         0  340266.072047         53   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0      M   сотрудник     0  145885.952297   
3   женат / замужем                 0      M   сотрудник     0  267628.550329   
4  гражданский брак                 1      F   пенсионер     0  158616.077870   

                      purpose  
0               покупка жилья  
1     приобретение автомобиля  
2               покупка жи

### Вывод

В таблице 21525 строк. Графа days_employed имеет пропущенные значения,а так же представлен в некорректром формате, еще есть минусовые значения. Значение education имеет дубли связанные с разным регистром ввода. Total_income имеет пропуске и так же стоит перевести в формат int. В таблице 54 дубликата


### Предобработка данных

### Обработка пропусков

In [2]:
# начнем со столбика days_employed
# рассмотрим пропуски

print(df[df['days_employed'].isnull()].head())
# На вид вместе с пропусками в days_employed всегда следуют пропуски в total_income. Проверим это.
print(df[df['days_employed'].isnull()&df['total_income'].isnull().shape])
# Мы узнали что нули в 2174 строках.
print(21525==19351+ 2174) # Результат True - значит это правило работает для всех пропусков таблицы.
# для удобства сохраним пропуски в отдельную переменную
#lost = df.loc[df['days_employed'].isnull()] 
# база без пропусков
#df = df.loc[df['days_employed'].notnull()] 
#print(df.info())


    children  days_employed  dob_years education  education_id  \
12         0            NaN         65   среднее             1   
26         0            NaN         41   среднее             1   
29         0            NaN         63   среднее             1   
41         0            NaN         50   среднее             1   
55         0            NaN         54   среднее             1   

            family_status  family_status_id gender  income_type  debt  \
12       гражданский брак                 1      M    пенсионер     0   
26        женат / замужем                 0      M  госслужащий     0   
29  Не женат / не замужем                 4      F    пенсионер     0   
41        женат / замужем                 0      F  госслужащий     0   
55       гражданский брак                 1      F    пенсионер     1   

    total_income                           purpose  
12           NaN                   сыграть свадьбу  
26           NaN                       образование  
29   

In [3]:
# заменим пропуски на медианное значение по income_type
#Сперва посомтрим медианное значение по типу дохода
print(df[['income_type','total_income']].groupby('income_type').median())
medincome = df[['income_type','total_income']].groupby('income_type').median()
medincome.info()

                  total_income
income_type                   
безработный      131339.751676
в декрете         53829.130729
госслужащий      150447.935283
компаньон        172357.950966
пенсионер        118514.486412
предприниматель  499163.144947
сотрудник        142594.396847
студент           98201.625314
<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, безработный to студент
Data columns (total 1 columns):
total_income    8 non-null float64
dtypes: float64(1)
memory usage: 128.0+ bytes


In [4]:
#создадим словарь # долго пытался сделать его автоматически из этой таблицы^, но не смог. как это можно сделать?
incomedict = {'безработный':131339.751676,
'в декрете':53829.130729,
'госслужащий':150447.935283,
'компаньон':172357.950966,
'пенсионер':118514.486412,
'предприниматель':499163.144947,
'сотрудник':142594.396847,
'студент':98201.625314}
print(incomedict)

{'безработный': 131339.751676, 'в декрете': 53829.130729, 'госслужащий': 150447.935283, 'компаньон': 172357.950966, 'пенсионер': 118514.486412, 'предприниматель': 499163.144947, 'сотрудник': 142594.396847, 'студент': 98201.625314}


In [5]:
# сделаем функцию и применим ее
def nantomed(row):
    total_income = row['total_income']
    income_type = row['income_type']
    if total_income == "" :
        #print(income_type)
        return incomedict.get(income_type)
    if total_income != "":
        #print(total_income)
        return total_income
        
df['total_income'] = df['total_income'].fillna(value='') #заменим Nan на пропуски что бы с ними можно было работать функцией
df['total_income'] = df.apply(nantomed, axis=1)   
print(df.info())# сработало!  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


In [6]:
#в days_employed просто заменим недостяющие значения на среднее по столбику

df['days_employed'] = df['days_employed'].fillna(value=df['days_employed'].mean())
print(df.info()) # все нормально

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


### Вывод

Мы убрали недостающие значения в столбах ежемесячного дохода и рабочих дней. Пропуски в размере дохода мы заменили на медианное значение по типу занятости клиента. А пропуски в количестве рабочих ней на медианную по рабочим дням, потмоу что этот показатель нам в данной работе все ровно не понадобится.

### Замена типа данных

In [7]:
#переведем float в int в столбах total_income и days_employed
df['total_income'] = df['total_income'].astype(int)
df['days_employed'] = df['days_employed'].astype(int)
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB
None


In [8]:
#Теперь надо перевести в булевое значение графу пол.
print(df['gender'].value_counts()) 
# Мы видим одну некорректную запись с полом XNA
df = df.loc[df['gender']!= "XNA"] # удалим ее
def to_bool(col):
    if col == "M":
        return True
    if col == "F":
        return False

df['gender'] = df['gender'].apply(to_bool) #теперь поле gender в булевом значении

F      14236
M       7288
XNA        1
Name: gender, dtype: int64


In [9]:
# теперь поправим education
def tolow(col):
    return col.lower()
df['education'] = df['education'].apply(tolow)
print(df[['education','education_id']].groupby('education').mean()) # проверим что все нормально заодно обратив внимание на education_id

                     education_id
education                        
высшее                          0
начальное                       3
неоконченное высшее             2
среднее                         1
ученая степень                  4


In [10]:
# посомтрим так же поле family_status.
print(df[['family_status','family_status_id']].groupby('family_status').mean())
# тут все хорошо, можно для красоты перевести в нижний регистр
df['family_status'] = df['family_status'].apply(tolow)

                       family_status_id
family_status                          
Не женат / не замужем                 4
в разводе                             3
вдовец / вдова                        2
гражданский брак                      1
женат / замужем                       0


In [11]:
print(df['income_type'].value_counts()) 
# Можно удалить 6 строк исключений как лишние
df = df.loc[(df['income_type']!= "безработный")&(df['income_type']!= "студент")&(df['income_type']!= "предприниматель")&(df['income_type']!= "в декрете")]
print(df['income_type'].value_counts()) #так лучше

сотрудник          11119
компаньон           5084
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
студент                1
в декрете              1
Name: income_type, dtype: int64
сотрудник      11119
компаньон       5084
пенсионер       3856
госслужащий     1459
Name: income_type, dtype: int64


In [12]:
print(df['children'].value_counts())
#тут ошибки. удалим тех у кого 20 детей. А тех у кого -1 исправим на 1 (видимо это ошибка ввода)
df = df.loc[df['children']!= 20]
def minustoplus(col):
    if col < 0:
        return int(col*-1)
    if col >0:
        return int(col)
    if col == 0:
        return 0
df['children'] = df['children'].apply(minustoplus)
print(df['children'].value_counts()) # так хорошо

 0     14144
 1      4817
 2      2054
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
0    14144
1     4864
2     2054
3      330
4       41
5        9
Name: children, dtype: int64


In [13]:
# уберем отрицательные значения в числовых столбах. days_employed и total_income (считаем это ошибками ввода)
df['total_income'] = df['total_income'].apply(minustoplus)
df['days_employed'] = df['days_employed'].apply(minustoplus)
# и purpose на всякий случай так же приведем к одному регистру
df['purpose'] = df['purpose'].apply(tolow)

### Вывод

Мы привели столбики  дохода и дней занятости в целочисловое значение, пол в булевое, удалив ошибки. Привели к нижнему регистру графу образование, убрали ошибочные и лишние значения в типе занятости и исправили ошибки в количестве детей. Теперь табличка удобна и с ней можно работать!

### Обработка дубликатов

In [14]:
# найдем повторяющиеся значения
print(df.duplicated().sum())
# их 66 посмотрим на них
#df2 = df = df['duplets']=df.duplicated()
#print(df2[df2['duplets']== True])
#сложо сказать разные это люди или нет. на всякий случай удалим их
df = df.drop_duplicates(keep=False)
# почему то у меня на этом моменте полностью зависает jupyter

71


In [15]:
print(df.duplicated().sum())
print(df.info())

0
<class 'pandas.core.frame.DataFrame'>
Int64Index: 21305 entries, 0 to 21524
Data columns (total 12 columns):
children            21305 non-null int64
days_employed       21305 non-null int64
dob_years           21305 non-null int64
education           21305 non-null object
education_id        21305 non-null int64
family_status       21305 non-null object
family_status_id    21305 non-null int64
gender              21305 non-null bool
income_type         21305 non-null object
debt                21305 non-null int64
total_income        21305 non-null int64
purpose             21305 non-null object
dtypes: bool(1), int64(7), object(4)
memory usage: 2.0+ MB
None


### Вывод

Мы нашли повторяющиеся значения в таблице и удалили их.

### Лемматизация

In [16]:
# столбик уже приведен к нижнему регистру. 
#сделаем столбик с лемами
from pymystem3 import Mystem
m = Mystem()
def lematizecolum(col):
    return m.lemmatize(col)
df['lematized'] = df['purpose'].apply(lematizecolum)
    
#соберем лемы отдельно
alllemas = []
for i in df['lematized']:
    for word in i:
        alllemas.append(word)

print(alllemas[:10]) # это список всех-всех лемов



['покупка', ' ', 'жилье', '\n', 'приобретение', ' ', 'автомобиль', '\n', 'покупка', ' ']


In [17]:
# рассмотрим количества повторений
from collections import Counter
print(Counter(alllemas))

Counter({' ': 33335, '\n': 21305, 'недвижимость': 6311, 'покупка': 5860, 'жилье': 4432, 'автомобиль': 4280, 'образование': 3989, 'с': 2899, 'операция': 2588, 'свадьба': 2293, 'свой': 2221, 'на': 2201, 'строительство': 1867, 'высокий': 1367, 'получение': 1309, 'коммерческий': 1300, 'для': 1281, 'жилой': 1223, 'сделка': 934, 'заниматься': 900, 'дополнительный': 899, 'проведение': 756, 'сыграть': 753, 'сдача': 647, 'семья': 634, 'собственный': 628, 'со': 623, 'ремонт': 601, 'подержанный': 479, 'подержать': 471, 'приобретение': 460, 'профильный': 434})


In [18]:
#Выделим важные в отдельный список словарик с ключами
real_lems ={'недвижимость': 1 ,'жилье': 1,'автомобиль': 2,'образование': 3,'свадьба' :4}
#запишем все в словарь с индексами. жилье и недвижимость у нас один ключ потому что это одно и то же. 
#Про операция нужно проверить.
#мы видим что это операции с недвижимостью (а не лечение), поэтому не будем выделять слово операции в отдельную категорию
count = 20 # это счетчикчто бы отобразить 20строк, а не все полотно
for i in df['lematized']:
    for word in i:
        if (word == 'операция')&(count > 0):
            count = count -1
            print(i)         

['операция', ' ', 'с', ' ', 'жилье', '\n']
['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n']
['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n']
['операция', ' ', 'со', ' ', 'свой', ' ', 'недвижимость', '\n']
['операция', ' ', 'с', ' ', 'недвижимость', '\n']
['операция', ' ', 'с', ' ', 'жилье', '\n']
['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n']
['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n']
['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n']
['операция', ' ', 'с', ' ', 'недвижимость', '\n']
['операция', ' ', 'со', ' ', 'свой', ' ', 'недвижимость', '\n']
['операция', ' ', 'с', ' ', 'жилье', '\n']
['операция', ' ', 'с', ' ', 'недвижимость', '\n']
['операция', ' ', 'со', ' ', 'свой', ' ', 'недвижимость', '\n']
['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n']
['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n']
['операция', ' ', 'со', ' ', 'св

In [19]:
# добавим новый столбик с индексом леммы в таблицу
def truelemma(col):
    for word in col:
        for lem in real_lems:
            if word == lem:
                return real_lems.get(word, 5) # 5 это будет индекс исключений которые не подходят не под одну категорию



df['lemma_index'] = df['lematized'].apply(truelemma)
print(df['lemma_index'].value_counts())
# все работает. в 5 категорию даже никто не попал

1    10743
2     4280
3     3989
4     2293
Name: lemma_index, dtype: int64


### Вывод

Мы леммизировали цели получения кредита и выделили 4 категории целей на которые люди берут кредит: недвижимость, авто, образование и свадьба. Чаще всего люди берут деньги на покупку жилья, остальные три категории примерно одниаковы и в сумме ровны первой.

### Категоризация данных

In [20]:
# лемализированные значения у нас уже хранятся в словаре real_lems
# следует категоризировать уровень дохода. Разделим доход на процентильные группы по 25%

import numpy as np
cut_points = [np.percentile(df['total_income'], i) for i in [25, 50, 75]]
df['income_group'] = 1
for i in range(3):
    df['income_group'] = df['income_group'] + (df['total_income'] < cut_points[i])


In [21]:
print(df[['total_income','income_group']].head(10))
#таким образом 1 - самые богатые, а 4 - самые бедные 25%

   total_income  income_group
0        253875             1
1        112080             3
2        145885             2
3        267628             1
4        158616             2
5        255763             1
6        240525             1
7        135823             3
8         95856             4
9        144425             2


In [22]:
# так же стоит составить словари чему соответствуют имеющиеся id в базе
print(df[['education','education_id']].groupby('education').mean())
#таким образом можно создать еще словарь по образвоанию
education_id_meaning = {'высшее': 0, 'начальное':3,'неоконченное высшее':2, 'среднее':1, 'ученая степень':4}

                     education_id
education                        
высшее                          0
начальное                       3
неоконченное высшее             2
среднее                         1
ученая степень                  4


In [23]:
# тоже самое для family status 
print(df[['family_status','family_status_id']].groupby('family_status').mean())
#и завести еще один словарь
family_id_meaning = {'в разводе': 3, 'вдовец / вдова':2,'гражданский брак':1, 'женат / замужем':0, 'не женат / не замужем':4}

                       family_status_id
family_status                          
в разводе                             3
вдовец / вдова                        2
гражданский брак                      1
женат / замужем                       0
не женат / не замужем                 4


In [24]:
#еще можно завести индексы для income_type
print(df[['income_type','family_status_id']].groupby('income_type').mean()) #family_Status_id  тут просто так
# таким образом мы видим 4 вида дохода для которых можно создать словарь
income_type_id_meaning = {'госслужащий':1, 'компаньон':2, 'пенсионер':3, 'сотрудник':4}

#и добавить соответсвующий столбик в базу
def income_type_id_meaning_add(col):
    return income_type_id_meaning.get(col)

df['income_type_id'] = df['income_type'].apply(income_type_id_meaning_add)

print(df.info())


             family_status_id
income_type                  
госслужащий          0.858224
компаньон            1.036252
пенсионер            0.990780
сотрудник            0.958303
<class 'pandas.core.frame.DataFrame'>
Int64Index: 21305 entries, 0 to 21524
Data columns (total 16 columns):
children            21305 non-null int64
days_employed       21305 non-null int64
dob_years           21305 non-null int64
education           21305 non-null object
education_id        21305 non-null int64
family_status       21305 non-null object
family_status_id    21305 non-null int64
gender              21305 non-null bool
income_type         21305 non-null object
debt                21305 non-null int64
total_income        21305 non-null int64
purpose             21305 non-null object
lematized           21305 non-null object
lemma_index         21305 non-null int64
income_group        21305 non-null int64
income_type_id      21305 non-null int64
dtypes: bool(1), int64(10), object(5)
memory usage:

### Вывод

Мы категоризировали значение дохода, записали в словари все id, добавили id по типу дохода, разделили всех клиентов на 4 процентильные категории по размерам доходов. Записали в словари существующие столбики с id, теперь при желании дублирующие столбики с текстом можно удалить.

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [25]:
print(df[['children','debt']].groupby('children').mean())

              debt
children          
0         0.075750
1         0.091660
2         0.094238
3         0.081818
4         0.097561
5         0.000000


### Вывод

Те у кого 1 и 2 ребенка чаще всего пропускают платежи. Немного лучше ситуация, когда есть четыре ребенка.  Лучше всего у бездетных и у семей с тремя детьми. 
Ну, а многодетные семьи с 5 детьми никогда не просрочивают кредиты. Хотя таких семей в выборке не много, возможно этого не достаточно для вывода.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [26]:
print(df[['family_status','debt']].groupby('family_status').mean())

                           debt
family_status                  
в разводе              0.070411
вдовец / вдова         0.066038
гражданский брак       0.093606
женат / замужем        0.075604
не женат / не замужем  0.097605


### Вывод

Среди неженатых просрочки по кредиту встречаются наиболее часто. Немногим лучше ситуация в гражданском браке. 
Жеатые находятся где-то по середине, а самые благонадежные группы это вдовцы и те кто в разводе.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [27]:
print(df[['income_group','debt']].groupby('income_group').mean())

                  debt
income_group          
1             0.071522
2             0.086658
3             0.087323
4             0.079609


### Вывод

Самые богатые реже всех просрочивают кредит. Наиболее рисковые группы это "средние 50%" между богатыми и бедными. Бедные 25% просрочивают кредит чаще чем богатые, но реже чем "средний класс".

- Как разные цели кредита влияют на его возврат в срок?

In [28]:
print(df[['lemma_index','debt']].groupby('lemma_index').mean())
# real_lems ={'недвижимость': 1 ,'жилье': 1,'автомобиль': 2,'образование': 3,'свадьба' :4}


                 debt
lemma_index          
1            0.072512
2            0.093458
3            0.092504
4            0.079808


In [29]:
#сделаем сводную табличу
print(df.pivot_table(index=['lemma_index'], columns='income_group', values='debt', aggfunc='mean'))
# Лучше всего давать кредиты на свадьбу богачам! среди них просрочивает выплаты только каждый 20ый.
#А вот кредиторы из среднего класса на автомобиль оказываются в два раза менее ответственными
#print(df.pivot_table(index=['lemma_index','family_status'], columns=['income_group','children'], values='debt', aggfunc='mean'))
#А вот такую ^^ закоментированную сводную таблицу можно 20х16 можно распечатать на стену сотруднику банка, что бы он сразу сверял благонадежность клиента:)

income_group         1         2         3         4
lemma_index                                         
1             0.067958  0.075981  0.078984  0.067771
2             0.085264  0.101639  0.090042  0.095468
3             0.078891  0.097015  0.107143  0.088093
4             0.050611  0.091603  0.086022  0.090000


### Вывод

Те кто берут кредит на свадьбу и на покупку недвижимости более склонны возвращать кредит, чем те кто берут его на автомобиль или образование.

### Шаг 4. Общий вывод

В ходе работой над проектом мы привели таблицу в рабочий вид, заменили недостоющие пропуски релевантными медианными значениями. Удалили небольшое число дубликатов. Для работы с числовыми значениями мы выделили процентные категории в доходах. Разобрав и леммизировав цели кредита удалось выделить 4 категории.
Теперь при появлении клиента банк без труда может сразу узнать его статистическую благонадежность клиента сверившись со специальной табличкой. Например, мы выяснили что кредиты лучше всего давать бездетным или родителям трех детей, вдовцам или находящимся в разводе с низким или же очень высоким доходом и опасно давать кредиты на автомобиль клиентам со средним доходом.