## Описание проекта

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.  
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('data.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.6+ MB


Ознакомимся подробнее со структурой и содержимым датасета

In [3]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [5]:
df['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75], dtype=int64)

In [6]:
df['dob_years'].count()

21525

In [7]:
df['days_employed'].unique()

array([-8437.67302776, -4024.80375385, -5623.42261023, ...,
       -2113.3468877 , -3112.4817052 , -1984.50758853])

In [8]:
df['education_id'].unique()

array([0, 1, 2, 3, 4], dtype=int64)

In [9]:
df['family_status_id'].unique()

array([0, 1, 2, 3, 4], dtype=int64)

In [10]:
df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [11]:
df['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [12]:
df['debt'].unique()

array([0, 1], dtype=int64)

In [13]:
df['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [14]:
df['education_id'].unique()

array([0, 1, 2, 3, 4], dtype=int64)

In [15]:
df['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [16]:
df['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [17]:
df['total_income'].unique()

array([253875.6394526 , 112080.01410244, 145885.95229686, ...,
        89672.56115303, 244093.05050043,  82047.41889948])

В исходной таблице 12 столбцов.
Проблемы обнаружены следующие:
1) Различается количество значений в столбцах  
2) Количество детей: есть отрицательные значения  
3) Трудовой стаж: имеются отрицательные значения, имеются пропущенные значения  
4) Возраст клиента: нулевые значения  
5) Образование: разница в регистрах  
6) Гендер: значение XNA  
7) Доход: пропущенные значения  
8) Дублирующиеся значения  

In [18]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Количество пропущенных значений:
1) дней проработал (days_employed) - 2174
2) итоговый доход (total_income) - 2174

In [19]:
df[(df['days_employed'].isna() == True) & (df['total_income'].isna() == True)].shape

(2174, 12)

Количество строк: 2174, колонок: 12

In [20]:
df['education'] = df['education'].str.lower()
df['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [21]:
df['days_employed'].unique()

array([-8437.67302776, -4024.80375385, -5623.42261023, ...,
       -2113.3468877 , -3112.4817052 , -1984.50758853])

In [22]:
df['days_employed'].dtypes

dtype('float64')

In [23]:
df['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [24]:
df['days_employed'] = abs(df['days_employed'])
df['days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

In [25]:
df['days_employed'].max()/(24 * 365)

45.8624886387363

В признаке имеются крупные значения, возможно, это количество отработанных часов. Напишем функцию, которая поделит данное число на количество часов в сутках, затем на количество дней в году

In [26]:
days_employed_median = df['days_employed'].median()
df['days_employed'] = df['days_employed'].fillna(value = days_employed_median).astype(int)
# df['days_employed'].isnull().sum()
# df['days_employed'].dtype

def convert_hours_to_days(hours):
    if hours > 45 * 365:
        return hours / 24
    else:
        return hours

df['days_employed'] = df['days_employed'].apply(convert_hours_to_days)
# df['days_employed'].max()
# df['days_employed'].value_counts()

Найдем медианы для каждой группы работников:

In [27]:
medians = df.groupby('income_type')['total_income'].median()
medians_dict = medians.to_dict()
# type(medians_dict)

def total_income_by_group(row):
    return medians[row]

df.loc[df['total_income'].isnull(), 'total_income'] = df['income_type'].apply(total_income_by_group)
df['total_income'].isnull().sum()

0

Пропущенные значения удалены

In [28]:
df['children'] = df['children'].replace(-1, 1)
df['children'] = df['children'].replace(20, 0)
dob_years_mean = int(df['dob_years'].mean())
df['dob_years'] = df['dob_years'].replace(0, dob_years_mean)
# df['children'].unique()
# df['dob_years'].unique()

# Замена типа данных

In [29]:
df[['days_employed', 'total_income']] = df[['days_employed', 'total_income']].astype(int)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int32 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int32 
 11  purpose           21525 non-null  object
dtypes: int32(2), int64(5), object(5)
memory usage: 1.4+ MB


# Обработка дубликатов

In [30]:
df.duplicated().sum()
#df['education'].value_counts()
df['family_status'] = df['family_status'].str.lower()
#df['family_status'].value_counts()
df = df.drop_duplicates().reset_index(drop = True)

# Лемматизация

In [31]:
#df['purpose'].unique()
from pymystem3 import Mystem
m = Mystem()

#lemma = df['purpose'].apply(m.lemmatize)
#lemma = lemma.str.join('')

#from collections import Counter
#print(Counter(lemma))
#type(lemma)

df['lemma'] = ' '.join(m.lemmatize('|'.join(df['purpose']))).split('|')
from collections import Counter
print(Counter(df['lemma']))

Counter({' автомобиль ': 972, ' свадьба ': 791, ' на   проведение   свадьба ': 768, ' сыграть   свадьба ': 765, ' операция   с   недвижимость ': 675, ' покупка   коммерческий   недвижимость ': 661, ' операция   с   жилье ': 652, ' покупка   жилье   для   сдача ': 651, ' операция   с   коммерческий   недвижимость ': 650, ' жилье ': 646, ' покупка   жилье ': 645, ' покупка   жилье   для   семья ': 638, ' строительство   собственный   недвижимость ': 635, ' недвижимость ': 633, ' операция   со   свой   недвижимость ': 627, ' строительство   жилой   недвижимость ': 624, ' покупка   недвижимость ': 621, ' покупка   свой   жилье ': 620, ' строительство   недвижимость ': 619, ' ремонт   жилье ': 607, ' покупка   жилой   недвижимость ': 606, ' на   покупка   свой   автомобиль ': 505, ' заниматься   высокий   образование ': 496, ' на   покупка   подержать   автомобиль ': 478, ' свой   автомобиль ': 478, ' на   покупка   автомобиль ': 470, ' приобретение   автомобиль ': 461, ' дополнительный   о

In [32]:
df['lemma'].value_counts()

 автомобиль                                     972
 свадьба                                        791
 на   проведение   свадьба                      768
 сыграть   свадьба                              765
 операция   с   недвижимость                    675
 покупка   коммерческий   недвижимость          661
 операция   с   жилье                           652
 покупка   жилье   для   сдача                  651
 операция   с   коммерческий   недвижимость     650
 жилье                                          646
 покупка   жилье                                645
 покупка   жилье   для   семья                  638
 строительство   собственный   недвижимость     635
 недвижимость                                   633
 операция   со   свой   недвижимость            627
 строительство   жилой   недвижимость           624
 покупка   недвижимость                         621
 покупка   свой   жилье                         620
 строительство   недвижимость                   619
 ремонт   жи

Итого, основные цели: недвижимость, автомобиль, свадьба, образование

# Категоризация данных

In [33]:
def purpose_cat(list):
    if 'автомобиль' in list:
        return 'автомобиль'
    elif 'жилье' in list:
        return 'жилье'
    elif 'недвижимость' in list:
        return 'жилье'
    elif 'образование' in list:
        return 'образование'
    else:
        return 'свадьба'

In [34]:
df['purpose_category'] = df['lemma'].apply(purpose_cat)
df['purpose_category'].value_counts()

жилье          10811
автомобиль      4306
образование     4013
свадьба         2324
Name: purpose_category, dtype: int64

# Ответы на вопросы

Зависимость между наличием детей и возвратом кредита?

In [35]:
df.groupby('children').agg({'debt': ['count', 'mean']})

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,mean
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,14167,0.075598
1,4855,0.091658
2,2052,0.094542
3,330,0.081818
4,41,0.097561
5,9,0.0


Зависимость между семейным положением и возвратом кредита?

In [36]:
df.groupby('family_status').agg({'debt': ['count', 'mean']})

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,mean
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
в разводе,1195,0.07113
вдовец / вдова,959,0.065693
гражданский брак,4151,0.093471
женат / замужем,12339,0.075452
не женат / не замужем,2810,0.097509


Зависимость между уровнем дохода и возвратом кредита?

In [37]:
df['total_income'].describe().round()

count      21454.0
mean      165320.0
std        98187.0
min        20667.0
25%       107623.0
50%       142594.0
75%       195820.0
max      2265604.0
Name: total_income, dtype: float64

In [38]:
def total_income_group(total_income):
    if total_income <= 110000:
        return 'низкий уровень'
    elif total_income > 110000 and total_income <= 200000:
        return 'средний уровень дохода'
    else:
        return 'высокий уровень дохода'

In [39]:
df['total_income_group'] = df['total_income'].apply(total_income_group)
df.groupby('total_income_group')['debt'].agg(['count', 'mean'])

Unnamed: 0_level_0,count,mean
total_income_group,Unnamed: 1_level_1,Unnamed: 2_level_1
высокий уровень дохода,5067,0.070653
низкий уровень,5642,0.080645
средний уровень дохода,10745,0.086366


Как разные цели кредита влияют на его возврат в срок?

Построим сводную таблицу

In [40]:
df.groupby('purpose_category').agg({'debt': ['count', 'mean']})

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,mean
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
автомобиль,4306,0.09359
жилье,10811,0.072334
образование,4013,0.0922
свадьба,2324,0.080034


# Общий вывод

In [41]:
df.groupby(['family_status', 'children']).agg({'debt': ['count', 'mean']})

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,debt
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean
family_status,children,Unnamed: 2_level_2,Unnamed: 3_level_2
в разводе,0,786,0.071247
в разводе,1,316,0.066456
в разводе,2,81,0.08642
в разводе,3,11,0.090909
в разводе,4,1,0.0
вдовец / вдова,0,851,0.06228
вдовец / вдова,1,81,0.08642
вдовец / вдова,2,20,0.15
вдовец / вдова,3,6,0.0
вдовец / вдова,4,1,0.0
