# Researching the reliability of borrowers

The customer is the credit department of the bank. It is necessary to find out how the marital status and the number of the client's children affect the timely payment of the loan. The data represent banking statistics on the solvency of customers.

The research results will be taken into account when building a credit scoring model.

#### Data Description
- children — number of children in the family
- days_employed — total length of service (days)
- dob_years —  client's age
- education —  client's education
- education_id — education id 
- family_status — marital status
- family_status_id — marital status id 
- gender — client's gender
- income_type — type of employment
- debt — client's debt (yes/no) 
- total_income — monthly salary
- purpose — purpose of obtaining a loan

In [1]:
pip install pymystem3==0.1.10

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd 
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

In [3]:
df = pd.read_csv('data.csv')

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [5]:
df.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Conclusion: In the  table 21525 lines, which contains information about the bank's borrowers. There are 12 pillars in the table. In the columns days_employed, total_income, we need to determine the reason for the missing (missing) values.

### Step 2. Data preprocessing

### Processing passes

In [6]:
df.isnull().sum()  

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Let's group the data and count the number of missing values:

In [7]:
df.loc[df['days_employed'].isnull(), 'income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

In [8]:
df.loc[df['total_income'].isnull(), 'income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

Revealed 2174 missing values. Because values are missing only in the income and seniority columns, it can be assumed that the omissions may not be accidental. The sample contains retirees, students, these categories may not have monthly income and work experience. Also, the sample may include borrowers who have unofficial income. Replacing the missing values of the days_employed column with the mean values using the mean() method. It is mean() that is used here, since for the missing values, we can specify the arithmetic mean, and the sample will not suffer from this.

In [9]:

med_total_income = df.groupby('income_type')['total_income'].median()
print(med_total_income)

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64


Fill in the missing values in the total_income column with the average for the yield_type column.

In [10]:
df['total_income'] = df.groupby('income_type')['total_income'].apply(lambda x: x.fillna(x.median()))
df['total_income'] = df['total_income'].fillna(df['total_income'].median())

In [11]:
df.loc[df['total_income'].isnull(), 'income_type'].value_counts()

Series([], Name: income_type, dtype: int64)

For the column days_employed use the same way, buе using mean() method. 

In [12]:
mean_days_employed = df.groupby('income_type')['days_employed'].mean()
print(mean_days_employed)


income_type
безработный        366413.652744
в декрете           -3296.759962
госслужащий         -3399.896902
компаньон           -2111.524398
пенсионер          365003.491245
предприниматель      -520.848083
сотрудник           -2326.499216
студент              -578.751554
Name: days_employed, dtype: float64


In [13]:
df['days_employed'] = df.groupby('income_type')['days_employed'].apply(lambda x: x.fillna(x.mean()))
df['days_employed'] = df['days_employed'].fillna(df['days_employed'].mean())

Checking missing values

In [14]:
df.isnull().sum()  

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

In [15]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


### Data types replacement

Information about data types 

In [16]:
print(df.dtypes)

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
dtype: object


Replacement data types in  days_employed и total_income columns on int64. 

In [17]:
df['days_employed'] = df['days_employed'].astype('int')

In [18]:
df['total_income'] = df['total_income'].astype('int')

In [19]:
print(df.dtypes)

children             int64
days_employed        int64
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int64
purpose             object
dtype: object


### Conclusion

We have replacemented data types on int64. In days_ employed column datas have negatives, but they will not be replaced it, because it not important for analysis. 

### Duplicates handling


First 10 table strings. Changing datas case.
 

In [20]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,-152,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,-6929,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


Counting the number of categories in a column:

In [21]:
print(df['education'].value_counts())

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64


Changing cases on lower case:

In [22]:
df['education'] = df['education'].str.lower() 
print(df['education']) 

0         высшее
1        среднее
2        среднее
3        среднее
4        среднее
          ...   
21520    среднее
21521    среднее
21522    среднее
21523    среднее
21524    среднее
Name: education, Length: 21525, dtype: object


In [23]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


Checking for duplicates: 

In [24]:
print(df.duplicated().sum())

71


Dropping duplicates:

In [25]:
df = df.drop_duplicates().reset_index(drop = True)

In [26]:
print(df.duplicated().sum())

0


We use the try-except construction for  check invalid data.

In [27]:
count_lines = 0
total_position = 0
wrong_lines = 0
for row in df['total_income']:
    try:
        count_lines += 1
        level = row
        total_position += level
    except:
        wrong_lines += 1
print('Количество измерений', count_lines)    
print('Количество некорректных строк', wrong_lines)

Количество измерений 21454
Количество некорректных строк 0


### Lemmatization

Lemmatizing purpose column  for correct datas.

Added new column lemma  

In [28]:
lemma = m.lemmatize
df['lemma'] = df['purpose'].apply(lemma)
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]"
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]"
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]"
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]"
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]"
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]"
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]"
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]"
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]"


Counting categories quantity in purpose column.

In [29]:
print(df['purpose'].value_counts())

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
жилье                                     646
покупка жилья                             646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Creating a function for categorize goals into groups.

In [30]:
def key_category(rows):
    if 'недвижимость' in rows:
        return 'операции с недвижимостью'
    if 'свадьба' in rows:
        return 'свадьба'
    if  'жилье' and 'ремонт' in rows:
        return 'операции с недвижимостью'
    if  'жилье' in rows:
        return 'операции с недвижимостью'
    if 'недвижимость' in rows:
        return 'операции с недвижимостью'   
    if 'образование' in rows:
        return 'образование'
    if 'автомобиль' in rows:
        return 'автомобиль'


Creating new column key_category. Here we have main credits purposes.

In [31]:
df['key_category'] = df['lemma'].apply(key_category) 
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,key_category
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]",операции с недвижимостью
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]",образование
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]",свадьба
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",операции с недвижимостью


Let's count the number of targets in the key_category column and get information about the table.

In [32]:
print(df['key_category'].value_counts())

операции с недвижимостью    10811
автомобиль                   4306
образование                  4013
свадьба                      2324
Name: key_category, dtype: int64


In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21454 non-null  int64 
 1   days_employed     21454 non-null  int64 
 2   dob_years         21454 non-null  int64 
 3   education         21454 non-null  object
 4   education_id      21454 non-null  int64 
 5   family_status     21454 non-null  object
 6   family_status_id  21454 non-null  int64 
 7   gender            21454 non-null  object
 8   income_type       21454 non-null  object
 9   debt              21454 non-null  int64 
 10  total_income      21454 non-null  int64 
 11  purpose           21454 non-null  object
 12  lemma             21454 non-null  object
 13  key_category      21454 non-null  object
dtypes: int64(7), object(7)
memory usage: 2.3+ MB


### Data categorization

We need to data categorization. Let's use quantiles for data categorization (25%, 50% and 75%).

In [34]:
income_group = pd.qcut(df['total_income'], q=4)

In [35]:
df['income_group'] = pd.qcut(df['total_income'], q=4)
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,key_category,income_group
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]"
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,"(107623.0, 142594.0]"
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(142594.0, 195820.25]"
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,"(195820.25, 2265604.0]"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,"(142594.0, 195820.25]"


In [36]:
df['income_group'].value_counts() 

(107623.0, 142594.0]      5479
(195820.25, 2265604.0]    5364
(20666.999, 107623.0]     5364
(142594.0, 195820.25]     5247
Name: income_group, dtype: int64

In [37]:
bin_income_4 = ['1', '2', '3', '4']
df['income_group_1'] = pd.qcut(df['total_income'],
q=[0, .25, .5, .75, 1],
labels=bin_income_4)
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,key_category,income_group,income_group_1
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,"(107623.0, 142594.0]",2
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(142594.0, 195820.25]",3
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,"(195820.25, 2265604.0]",4
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,"(142594.0, 195820.25]",3
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]",образование,"(107623.0, 142594.0]",2
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]",свадьба,"(20666.999, 107623.0]",1
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",операции с недвижимостью,"(142594.0, 195820.25]",3


In [38]:
df['income_group_1'].value_counts()

2    5479
4    5364
1    5364
3    5247
Name: income_group_1, dtype: int64

After data categorization we have 4 groups; 

- 5364 people's income is 1 range (20 666.9 - 107 623.0 RUB) 
- 6415 people's income is 2 range  (107 623.0 - 145 017.0 RUB) 
- 4311 people's income is 3 range  (145 017.0 - 195 813.25.0 RUB) 
- 5364 people's income is 4 range (195 813.25 RUB and more) 

Then we have to categorize column children.

In [39]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,key_category,income_group,income_group_1
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,"(107623.0, 142594.0]",2
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(142594.0, 195820.25]",3
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,"(195820.25, 2265604.0]",4
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,"(142594.0, 195820.25]",3
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]",образование,"(107623.0, 142594.0]",2
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]",свадьба,"(20666.999, 107623.0]",1
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",операции с недвижимостью,"(142594.0, 195820.25]",3


In [40]:
print(df['children'].max()) 
print(df['children'].min())

20
-1


In [41]:
print(df['children'].value_counts()) 

 0     14091
 1      4808
 2      2052
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


We have incorrect data as a result of unloading or other factor. Replace the negative value with the positive one (-1 by 1).
There is a problem with the number of 20 children in 76 columns, I think this is an error and since this is a small value from the entire sample, the data can be replaced (20 by 2).

In [42]:
df['children'] = df['children'].abs() 
df['children'] = df['children'].replace(20, 2)

In [43]:
print(df['children'].value_counts()) 

0    14091
1     4855
2     2128
3      330
4       41
5        9
Name: children, dtype: int64


In [44]:
children_dict = df[['family_status_id', 'family_status']]
print(children_dict.head(10))

   family_status_id     family_status
0                 0   женат / замужем
1                 0   женат / замужем
2                 0   женат / замужем
3                 0   женат / замужем
4                 1  гражданский брак
5                 1  гражданский брак
6                 0   женат / замужем
7                 0   женат / замужем
8                 1  гражданский брак
9                 0   женат / замужем


For categorize family_status column we use dictionary. 

In [45]:
children_dict = df[['family_status_id','family_status', 'children']]
print(children_dict.head(20)) 

    family_status_id     family_status  children
0                  0   женат / замужем         1
1                  0   женат / замужем         1
2                  0   женат / замужем         0
3                  0   женат / замужем         3
4                  1  гражданский брак         0
5                  1  гражданский брак         0
6                  0   женат / замужем         0
7                  0   женат / замужем         0
8                  1  гражданский брак         2
9                  0   женат / замужем         0
10                 0   женат / замужем         2
11                 0   женат / замужем         0
12                 1  гражданский брак         0
13                 0   женат / замужем         0
14                 1  гражданский брак         0
15                 0   женат / замужем         1
16                 0   женат / замужем         0
17                 1  гражданский брак         0
18                 2    вдовец / вдова         0
19                 3

In [46]:
children_dict = children_dict.drop_duplicates().reset_index(drop=True)
print(children_dict.head())

   family_status_id     family_status  children
0                 0   женат / замужем         1
1                 0   женат / замужем         0
2                 0   женат / замужем         3
3                 1  гражданский брак         0
4                 1  гражданский брак         2


In [47]:
print((children_dict.sort_values(by= ['family_status', 'children'] ))) 

    family_status_id          family_status  children
10                 4  Не женат / не замужем         0
9                  4  Не женат / не замужем         1
15                 4  Не женат / не замужем         2
22                 4  Не женат / не замужем         3
20                 4  Не женат / не замужем         4
7                  3              в разводе         0
11                 3              в разводе         1
14                 3              в разводе         2
18                 3              в разводе         3
21                 3              в разводе         4
6                  2         вдовец / вдова         0
12                 2         вдовец / вдова         1
13                 2         вдовец / вдова         2
25                 2         вдовец / вдова         3
26                 2         вдовец / вдова         4
3                  1       гражданский брак         0
8                  1       гражданский брак         1
4                  1       г

### Step 3. Questions

### Is there a relationship between the presence of children and the repayment of the loan on time?

In [48]:
data_pivot = df.pivot_table(index = ['children'], values ='debt', aggfunc='sum').sort_values(by = 'debt', ascending = False)
data_pivot.head(20)

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,1063
1,445
2,202
3,27
4,4
5,0


Let's calculate the debt by groups.

In [49]:
 df.groupby(['children']).agg({'debt':'mean'}).sort_values(by = 'debt', ascending = False)  

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
4,0.097561
2,0.094925
1,0.091658
3,0.081818
0,0.075438
5,0.0


### Conclusion

Based on the results obtained, we can conclude that the number of children affects the loan repayment on time. For a group of people who do not have children, the probability of repaying the loan on time is higher than for a similar group with children. 
There is question for a group with 5 children. Let's consider it in more detail.

In [50]:
df.loc[df['children'] == 5 ]['children'].count()

9

We have only 9 records in the table and this not so important for analysis in general.

### Is there a relationship between marital status and loan repayment on time?

In [51]:
data_pivot = df.pivot_table(index = ['family_status'], values ='debt', aggfunc='sum').sort_values(by = 'debt', ascending = False)
data_pivot.head(20)

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
женат / замужем,931
гражданский брак,388
Не женат / не замужем,274
в разводе,85
вдовец / вдова,63


Let's calculate the debt by groups.

In [52]:
 df.groupby(['family_status']).agg({'debt':'mean'}).sort_values(by = 'debt', ascending = False) 

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
Не женат / не замужем,0.097509
гражданский брак,0.093471
женат / замужем,0.075452
в разводе,0.07113
вдовец / вдова,0.065693


### Conclusion

Based on the data obtained, we can conclude that  borrowers who have ever been  married are the most responsible borrowers and repay the loan on time.

### Is there between income level and loan repayment on time?

In [53]:
data_pivot = df.pivot_table(index = ['income_group_1'], values ='debt', aggfunc='sum').sort_values(by = 'debt', ascending = False)
data_pivot.head(20)

Unnamed: 0_level_0,debt
income_group_1,Unnamed: 1_level_1
2,483
3,448
1,427
4,383


Let's calculate the debt by groups.

In [54]:
 df.groupby(['income_group_1']).agg({'debt':'mean'}).sort_values(by = 'debt', ascending = False)  

Unnamed: 0_level_0,debt
income_group_1,Unnamed: 1_level_1
2,0.088155
3,0.085382
1,0.079605
4,0.071402


### Conclusion

The most problematic borrowers is the group with an income of 195,813.25 rubles and higher.

### How are the different purposes of the loan for its return on time?

In [55]:
data_pivot = df.pivot_table(index = ['key_category'], values ='debt', aggfunc='sum').sort_values(by = 'debt', ascending = False)
data_pivot.head(20)

Unnamed: 0_level_0,debt
key_category,Unnamed: 1_level_1
операции с недвижимостью,782
автомобиль,403
образование,370
свадьба,186


Let's calculate the debt by groups.

In [56]:
 df.groupby(['key_category']).agg({'debt':'mean'}).sort_values(by = 'debt', ascending = False)  

Unnamed: 0_level_0,debt
key_category,Unnamed: 1_level_1
автомобиль,0.09359
образование,0.0922
свадьба,0.080034
операции с недвижимостью,0.072334


In [57]:
data_pivot = df.pivot_table(index = ['key_category'], columns = 'debt', values = 'gender', aggfunc = 'count')


data_pivot['ratio'] = round(data_pivot[1] / (data_pivot[0] + data_pivot[1]), 4)
data_pivot.sort_values('ratio', ascending = False)

debt,0,1,ratio
key_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3903,403,0.0936
образование,3643,370,0.0922
свадьба,2138,186,0.08
операции с недвижимостью,10029,782,0.0723


### Conclusion

The most problematic credit goals :
  - car purchase
  - getting education
  - loan for wedding

The most responsible borrowers are the people who  take a loan for buying  property.

### Step 4. General conclusion

After the analysis, we can conclude:  
Marital status affects the likelihood of repayment of the loan on time, as well as the presence of children.
The group with the lowest income will be more responsible in repaying the loan. Loans, the purpose of which is to purchase real estate or renovate an existing one, will be paid on time, unlike a loan for a car or education.
The region of study should be taken into account, in megalopolises (such as Moscow, St. Petersburg) there may be other data on small cities, and in this case it is not worth talking about the impossibility of repaying the loan on time for a representative of a particular group with a certain set of factors.