In [12]:
import pandas as pd

In [13]:
df = pd.read_csv('./datasets/loan_reliability_project.csv')
print(df.head(5))

   children  days_employed  dob_years education  education_id  \
0         1   -8437.673028         42    высшее             0   
1         1   -4024.803754         36   среднее             1   
2         0   -5623.422610         33   Среднее             1   
3         3   -4124.747207         32   среднее             1   
4         0  340266.072047         53   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0      M   сотрудник     0  145885.952297   
3   женат / замужем                 0      M   сотрудник     0  267628.550329   
4  гражданский брак                 1      F   пенсионер     0  158616.077870   

                      purpose  
0               покупка жилья  
1     приобретение автомобиля  
2               покупка жи

In [14]:
# There was more than 2000 null values in 'days_employed' column which is more than 10% of total values.
median_days_employed = df.loc[df['days_employed'] > 0, 'days_employed'].median()
# I changed missed values to median value because it handles outliers well,
# keeps the data balanced, and ensures the analysis stays accurate
df['days_employed'] = df['days_employed'].fillna(value=median_days_employed)

In [15]:
# Negative values (18080) in 'days_employed' column seems incorrect and I changed them to median too
df.loc[df['days_employed'] <= 0, 'days_employed'] = median_days_employed

# Checking that all the values are grater than 0
print(df.loc[df['days_employed'] <= 0, 'days_employed'].sum())

0.0


In [16]:
# Making sure the type is correct
print(df['days_employed'].dtype, df['dob_years'].dtype, df['total_income'].dtype)
#float64 int64 float64

float64 int64 float64


In [17]:
# It's more comfortable to work with int numbers in salary column
df['total_income'] = df['total_income'].fillna(0).astype('int')
print(df['total_income'].dtype)

int64


In [18]:
# Checking for duplicates in columns education, family_status, income_type, purpose

print(f'education: {df['education'].unique()}')
print(f'family_status: {df['family_status'].unique()}')
print(f'income_type: {df['income_type'].unique()}')
print(f'purpose: {df['purpose'].unique()}')

# There are duplicates in education and purpose columns

education: ['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']
family_status: ['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']
income_type: ['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']
purpose: ['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимость

In [19]:
# To lowcase
df.loc[:, 'education'] = df.loc[:, 'education'].str.lower()

print(f'education: {df['education'].unique()}')

education: ['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']


In [20]:
# I'd like to create a new column to group the data from 'purpose' column

def categorize_purpose(purpose):
    purpose = purpose.lower().strip()
    if 'жиль' in purpose:
        return 'операции с недвижимостью'
    elif 'недвижимост' in purpose:
        return 'операции с недвижимостью'
    elif 'авто' in purpose:
        return 'операции с автомобилем'
    elif 'свадьб' in purpose:
        return 'проведение свадьбы'
    elif 'образован' in purpose:
        return 'получение образования'
    else:
        return 'прочее'

df['purpose_categories'] = df['purpose'].apply(categorize_purpose)

print(f'purpose_categories: {df['purpose_categories'].unique()}')

# Check if all categories are collected
if df.loc[df['purpose_categories'] == 'прочее'].shape[0] == 0:
    print('All the purposes are categorized')
else:
    print(df.loc[df['purpose_categories'] == 'прочее'])

purpose_categories: ['операции с недвижимостью' 'операции с автомобилем'
 'получение образования' 'проведение свадьбы']
All the purposes are categorized


In [21]:
print(df.head(5))

   children  days_employed  dob_years education  education_id  \
0         1  365213.306266         42    высшее             0   
1         1  365213.306266         36   среднее             1   
2         0  365213.306266         33   среднее             1   
3         3  365213.306266         32   среднее             1   
4         0  340266.072047         53   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M   сотрудник     0        145885   
3   женат / замужем                 0      M   сотрудник     0        267628   
4  гражданский брак                 1      F   пенсионер     0        158616   

                      purpose        purpose_categories  
0               покупка жилья  операции с недвижимостью  
1     приобр

In [22]:
# Removing extra data from the df
education_df = df[['education', 'education_id']].drop_duplicates().reset_index(drop=True)
family_status_df = df[['family_status', 'family_status_id']].drop_duplicates().reset_index(drop=True)
df.drop(columns=['education', 'family_status'], inplace=True)
print(education_df)
print(family_status_df)

             education  education_id
0               высшее             0
1              среднее             1
2  неоконченное высшее             2
3            начальное             3
4       ученая степень             4
           family_status  family_status_id
0        женат / замужем                 0
1       гражданский брак                 1
2         вдовец / вдова                 2
3              в разводе                 3
4  Не женат / не замужем                 4


In [23]:
print(df.head(5))

   children  days_employed  dob_years  education_id  family_status_id gender  \
0         1  365213.306266         42             0                 0      F   
1         1  365213.306266         36             1                 0      F   
2         0  365213.306266         33             1                 0      M   
3         3  365213.306266         32             1                 0      M   
4         0  340266.072047         53             1                 1      F   

  income_type  debt  total_income                     purpose  \
0   сотрудник     0        253875               покупка жилья   
1   сотрудник     0        112080     приобретение автомобиля   
2   сотрудник     0        145885               покупка жилья   
3   сотрудник     0        267628  дополнительное образование   
4   пенсионер     0        158616             сыграть свадьбу   

         purpose_categories  
0  операции с недвижимостью  
1    операции с автомобилем  
2  операции с недвижимостью  
3     по

In [24]:
# Categorising income

def categorising_income(income):
    if income <= 30000:
        return 'E'
    elif income > 30000 & income <= 50000:
        return 'D'
    elif income > 50000 & income <= 200000:
        return 'C'
    elif income > 200000 & income <= 1000000:
        return 'B'
    elif income > 1000000:
        return 'A'
    else:
        return 'Income error'

df['total_income_category'] = df['total_income'].apply(categorising_income)
print(df['total_income_category'].unique())

['D' 'E']


In [25]:
print(df.head(10))

   children  days_employed  dob_years  education_id  family_status_id gender  \
0         1  365213.306266         42             0                 0      F   
1         1  365213.306266         36             1                 0      F   
2         0  365213.306266         33             1                 0      M   
3         3  365213.306266         32             1                 0      M   
4         0  340266.072047         53             1                 1      F   
5         0  365213.306266         27             0                 1      M   
6         0  365213.306266         43             0                 0      F   
7         0  365213.306266         50             1                 0      M   
8         2  365213.306266         35             0                 1      F   
9         0  365213.306266         41             1                 0      M   

  income_type  debt  total_income                     purpose  \
0   сотрудник     0        253875               покупк

In [34]:
data_pivot = df.pivot_table(
    index='family_status_id',  # Family
    columns='children',     # Kids
    values='debt',          # Debts
    aggfunc='sum'           # Sum
)

print(data_pivot)

children          -1      0      1      2     3    4    5    20
family_status_id                                               
0                 1.0  516.0  246.0  145.0  17.0  3.0  0.0  3.0
1                 0.0  229.0  118.0   30.0   8.0  0.0  0.0  3.0
2                 0.0   53.0    7.0    3.0   0.0  0.0  NaN  0.0
3                 0.0   55.0   21.0    7.0   1.0  0.0  NaN  1.0
4                 0.0  210.0   52.0    9.0   1.0  1.0  NaN  1.0
