## Изучение общей информации

In [1]:
import pandas as pd
from pymystem3 import Mystem
import warnings
warnings.filterwarnings('ignore')

In [2]:
df = pd.read_csv('/datasets/data.csv')
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [4]:
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

In [5]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


У нас есть датафрейм на 21525 строк. С первого взгляда видны аномалии в столбце "days_employed" и "children" в виде отрицательных значений и значений с плавающей точкой. Еще видны неполные дубликаты в столбце "education" в виде строк с разными регистрами. Кроме того, в столбце "total_income" слишком много элементов в дробной части. Так же я обнаружил пропущенные значения в столбцах "days_employed" и "total_income". Названия столбцов записаны полностью латиницей, без пробелов и разных регистров.

## Предобработка данных

### Обработка пропусков

In [6]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [7]:
null_data = df[df.isnull().any(axis=1)]
null_data.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


In [8]:
df['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [9]:
df.loc[(df['days_employed'] >= 0), 'days_employed'] /= 24
df['days_employed'].describe()

count    19351.000000
mean       773.409931
std       7045.147683
min     -18388.949901
25%      -2747.423625
50%      -1203.369529
75%       -291.095954
max      16739.808353
Name: days_employed, dtype: float64

In [10]:
df['days_employed'].abs().describe()

count    19351.000000
mean      4641.641176
std       5355.964289
min         24.141633
25%        927.009265
50%       2194.220567
75%       5537.882441
max      18388.949901
Name: days_employed, dtype: float64

In [11]:
df['days_employed'] = df['days_employed'].abs()

In [12]:
df['total_income'] = df.groupby(['gender', 'income_type', 'education'])['total_income'] \
                       .transform(lambda x: x.fillna(x.median()))

In [13]:
df['total_income'] = df['total_income'].fillna(df['total_income'].median())

In [14]:
train = df.sample(frac=.7,random_state=42).copy()

In [15]:
test = df[~df.index.isin(train.index)].copy()

In [16]:
len(train)

15067

In [17]:
len(test)

6458

In [18]:
len(df)

21525

In [19]:
len(train) + len(test)

21525

In [20]:
train['total_income'].mean()

165747.49112376754

In [21]:
test['income_pred'] = train['total_income'].mean()

In [22]:
test['income_pred_med'] = train['total_income'].median()

In [23]:
(test['total_income'] - test['income_pred']).abs().mean()

64703.88654627921

In [24]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

In [25]:
df[df['dob_years'] == 0]['dob_years'].sort_values().count()

101

In [26]:
groupped_median = df.groupby('family_status')['dob_years'].median()
df.loc[(df['dob_years'] == 0), 'dob_years'] = groupped_median[1]

Заменил нулевые значения возраста медианой в соответствии с семейным положением

In [27]:
df[df['dob_years'] == 0]['dob_years'].sort_values().count()

0

In [28]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

In [29]:
def category_age(data):
    if data[0] < 35:
        return 'молодежь'
    elif ((35 <= data[0] < 65) & (data[1] == 'M')) | \
         ((35 <= data[0] < 60) & (data[1] == 'F')):
        return 'взрослые'
    return 'пенсионеры'

Молодежь и пенсионеров взял в соответствии с законодательством

In [30]:
df['age_cat'] = df[['dob_years', 'gender']].apply(category_age, axis=1)

In [31]:
df['days_employed'] = df.groupby('age_cat')['days_employed'] \
                        .transform(lambda x: x.fillna(x.median()))

Заменил пропуски в трудовом стаже на медианные значения в зависимости от возрастной категории

In [32]:
df.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_cat             0
dtype: int64

In [33]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.538908,4521.865542,43.509222,0.817236,0.972544,0.080883,165397.8
std,1.381587,5240.686707,12.219363,0.548138,1.420324,0.272661,98298.15
min,-1.0,24.141633,19.0,0.0,0.0,0.0,20667.26
25%,0.0,1025.608174,34.0,1.0,0.0,0.0,107714.5
50%,0.0,2385.358043,43.0,1.0,0.0,0.0,144902.6
75%,1.0,5068.532819,53.0,1.0,1.0,0.0,196634.8
max,20.0,18388.949901,75.0,4.0,4.0,1.0,2265604.0


In [34]:
df['children'] = df['children'].abs()
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.543275,4521.865542,43.509222,0.817236,0.972544,0.080883,165397.8
std,1.379876,5240.686707,12.219363,0.548138,1.420324,0.272661,98298.15
min,0.0,24.141633,19.0,0.0,0.0,0.0,20667.26
25%,0.0,1025.608174,34.0,1.0,0.0,0.0,107714.5
50%,0.0,2385.358043,43.0,1.0,0.0,0.0,144902.6
75%,1.0,5068.532819,53.0,1.0,1.0,0.0,196634.8
max,20.0,18388.949901,75.0,4.0,4.0,1.0,2265604.0


In [35]:
df['children'].value_counts()

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64

In [36]:
def child_fill(data):
    if (data[0] == 'молодежь') & (data[1] in [1, 4]):
        return 0
    return 2

df.loc[df['children'] == 20, 'children'] = df[['age_cat', 'family_status_id']] \
                                             .apply(child_fill, axis=1)

Разбил 20-детных так: если человеку меньше 35 лет и он не женат / не за мужем или в гражданском браке, то детей 0. В остальных случаях детей 2

In [37]:
df['children'].value_counts()

0    14157
1     4865
2     2123
3      330
4       41
5        9
Name: children, dtype: int64

Значения пропущены только в столбце 'days_employed' и 'total_income'. Так как пропуски обозначаются NaN (not a number), возможно, при оформлении заявки в графу "трудовой стаж" и "доход в месяц" люди писали ответ не числом, а текстом, а форма готова была принять только числовое значение.
Так как в двух столбцах с пропущенными значениями переменные являются количественными и число пропусков достигает почти 10% от всех строк датафрейма, то мы не можем удалить эти строки. Поэтому заменим их на значение медианы (расчитана в зависимости от возрастной группы для стажа и в зависимости от пола, типа занятости и образования для дохода), посчитанной для каждого столбца, но перед этим исправим баг с трудовым стажем (разделим положительные значения на 24, т.к. они (скорее всего) считались в часах и обратим отрицательные значения трудового стажа в положительные). Проверил так же отрицательные значения остальных столбцов. Еще заменил нулевой возсраст на медиану, расчитанную в зависимости от семейного положения и разбил 20-детных клиентов на клиентов без детей и клиентов с 2 детьми.

### Замена типа данных

In [38]:
df['days_employed'] = df['days_employed'].astype('int')
df['total_income'] = df['total_income'].astype('int')

In [39]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_cat
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,взрослые
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,взрослые
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,молодежь
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,молодежь
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,взрослые


In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
age_cat             21525 non-null object
dtypes: int64(7), object(6)
memory usage: 2.1+ MB


Округлил значения трудового стажа вниз (учитываем только полные дни трудового стажа) и тем самым привел тип данных к целым числам. Значения дохода округлил так же до целой части, так как разница в копейках не так существенна в масштабах зарплат.

### Обработка дубликатов

In [41]:
df.duplicated().sum()

55

In [42]:
df['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [43]:
df['education'] = df['education'].str.lower()
df['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

In [44]:
df['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [45]:
df['family_status'] = df['family_status'].str.lower()
df['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [46]:
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [47]:
df = df.drop(df[df['gender'] == 'XNA'].index)
df['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

In [48]:
df['income_type'].value_counts()

сотрудник          11119
компаньон           5084
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

In [49]:
df.duplicated().sum()

55

In [50]:
df = df.drop_duplicates().reset_index(drop=True)

In [51]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21469 entries, 0 to 21468
Data columns (total 13 columns):
children            21469 non-null int64
days_employed       21469 non-null int64
dob_years           21469 non-null int64
education           21469 non-null object
education_id        21469 non-null int64
family_status       21469 non-null object
family_status_id    21469 non-null int64
gender              21469 non-null object
income_type         21469 non-null object
debt                21469 non-null int64
total_income        21469 non-null int64
purpose             21469 non-null object
age_cat             21469 non-null object
dtypes: int64(7), object(6)
memory usage: 2.1+ MB


Исправил в категориальных значениях дубликаты с разными регистрами, удалил 1 строку, столбец "gender" которой имеет значение "XNA". В конце удалил полные дубликаты (которые были изначально и которые появились после приведения значений в стандартный вид).

### Лемматизация

In [52]:
df['purpose'].value_counts()

свадьба                                   793
на проведение свадьбы                     772
сыграть свадьбу                           769
операции с недвижимостью                  675
покупка коммерческой недвижимости         662
операции с жильем                         652
покупка жилья для сдачи                   652
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          625
покупка недвижимости                      620
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

In [53]:
m = Mystem()

In [54]:
def category_purpose(data):
    category_list = ['свадьба', 'недвижимость', 'жилье', 'автомобиль', 'образование']
    lemmas = m.lemmatize(data)
    for word in category_list:
        if word in lemmas:
            return word

Создал функцию по лемматизации и категоризации данных. На основе столбца purpose создал список категорий.

### Категоризация данных

In [55]:
df['purpose_cat'] = df['purpose'].apply(category_purpose)

In [56]:
df = df.drop('purpose', axis=1)

In [57]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,age_cat,purpose_cat
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,взрослые,жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,взрослые,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,молодежь,жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,молодежь,образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,взрослые,свадьба


In [58]:
df['purpose_cat'].value_counts()

недвижимость    6352
жилье           4461
автомобиль      4308
образование     4014
свадьба         2334
Name: purpose_cat, dtype: int64

In [59]:
def category_child(childrens):
    if childrens == 0:
        return 'бездетные'
    elif 0 < childrens < 3:
        return 'малодетные'
    return 'многодетные'


df['child_cat'] = df['children'].apply(category_child)

In [60]:
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'age_cat', 'purpose_cat', 'child_cat'],
      dtype='object')

In [61]:
df.duplicated().sum()

208

In [62]:
df = df.drop_duplicates().reset_index(drop=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21261 entries, 0 to 21260
Data columns (total 14 columns):
children            21261 non-null int64
days_employed       21261 non-null int64
dob_years           21261 non-null int64
education           21261 non-null object
education_id        21261 non-null int64
family_status       21261 non-null object
family_status_id    21261 non-null int64
gender              21261 non-null object
income_type         21261 non-null object
debt                21261 non-null int64
total_income        21261 non-null int64
age_cat             21261 non-null object
purpose_cat         21261 non-null object
child_cat           21261 non-null object
dtypes: int64(7), object(7)
memory usage: 2.3+ MB


Создал новый столбец purpose_cat с категориями целей кредита, удалил более ненужный столбец purpose и снова удалил дубликаты (без категоризации этого сделать было нельзя, так как при составлении нескольких заявок на кредит один и тот же человек мог написать в графе "цель кредита" разные формулировки одной и той же цели кредита.
Итого после всех преобразований из датафрейма ушло 263 строки дубликатов. Это примерно 1.2% от изначального датафрейма, что считаю приемлемым.

## Анализ

### Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [63]:
df.groupby('child_cat')['debt'].mean().sort_values(ascending=False) * 100

child_cat
малодетные     9.311041
многодетные    8.179420
бездетные      7.623351
Name: debt, dtype: float64

Зависимость следующая: малодетные клиенты чаще не возвращают кредит в срок. Бездетные же клиенты возвращают кредит в срок чаще.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [64]:
df.groupby('family_status')['debt'].mean().sort_values(ascending=False) * 100

family_status
не женат / не замужем    9.792709
гражданский брак         9.371981
женат / замужем          7.636095
в разводе                7.124895
вдовец / вдова           6.624606
Name: debt, dtype: float64

Зависимость есть. Не женатые и состоящие в гражданском браке (то есть, не обремененные обязательствами перед другим человеком) реже возвращают кредит в срок. Наибольшую вероятность возврата кредита в срок имеют те, кто утратил связь с супругом (развод или смерть).

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [65]:
df['total_income'].describe()

count    2.126100e+04
mean     1.657875e+05
std      9.881031e+04
min      2.066700e+04
25%      1.070030e+05
50%      1.449020e+05
75%      1.973820e+05
max      2.265604e+06
Name: total_income, dtype: float64

In [66]:
df['income_cat'] = pd.qcut(x=df['total_income'],
        q=4,
        labels=['низкая зарплата',
                'ниже среднего',
                'выше среднего',
                'высокая зарплата'])

In [67]:
df.groupby('income_cat')['debt'].mean().sort_values(ascending=False) * 100

income_cat
выше среднего       8.927558
ниже среднего       8.777840
низкая зарплата     7.957111
высокая зарплата    7.074318
Name: debt, dtype: float64

Клиенты со средней зарплатой возвращают кредит в срок реже, чем клиенты с наиболее высокой зарплатой

### Как разные цели кредита влияют на его возврат в срок?

In [68]:
df.groupby('purpose_cat')['debt'].mean().sort_values(ascending=False) * 100

purpose_cat
автомобиль      9.399112
образование     9.312862
свадьба         8.027622
недвижимость    7.550175
жилье           6.974638
Name: debt, dtype: float64

Реже всего в срок возвращают кредиты, полученные на автомобиль и образование. Чаще всего возвращают в срок кредиты, полученные на жилье и недвижимость.

## Вывод

На возврат кредита в срок такие параметры, как наличие детей, семейное положение, уровень дохода и цель кредита влияют следующим образом:
    Клиент без детей, вдовец (или вдова) с высоким доходом и запросивший кредит на недвижимость или жилье с бОльшей долей вероятности вернет кредит в срок.
    Клиент с 1-2 детьми, не женатый (или незамужняя) или в гражданском браке со средним доходом и запросивший кредит на автомобиль или образование с наименьшей вероятностью вернет кредит в срок.