# Исследование надежности заемщиков.

### Шаг 1. Обзор данных

In [1]:
import pandas as pd

data = pd.read_csv (r'C:\Users\stazher3\Downloads\Yandex.Disk.Files\2\[SuperSliv.biz] 07 Проектная работа\data.csv')

print(data.info())
print()
print(data.columns)
print()
print(data.head(10))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'to

### Шаг 2.1 Заполнение пропусков

In [2]:
print(data.isna().sum())

mean_income = data['total_income'].mean()
print(mean_income)

data['total_income'] = data['total_income'].fillna(mean_income)
print(data['total_income'].mean())
print(data.isna().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64
167422.30220817294
167422.30220817297
children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64


### Шаг 2.2 Проверка данных на аномалии и исправления.

In [3]:
# Normalise values of the 'days_employed' column except for NaN
def negative_days_employed(dataframe):
    try:
        dataframe['days_employed'] = dataframe['days_employed'].astype(str).str.replace('""','').str.replace(' ','').astype(float).abs()
    except Exception as e:
        print(f'An error occured: {e}')
    return dataframe

print(negative_days_employed(data).head(10))
print(data.isna().sum())
print(data['days_employed'].mean())
print(data['days_employed'].median())
print(data['dob_years'].max())
# The difference between the mean and median amount of days employed is really drastic. 
# We should exclude all values which are greater than max job year 75*365=27375 as unrealistic.


days_employed_corrected = data[data['days_employed'] <=27375]
data['days_employed'] = days_employed_corrected['days_employed']
mean_days_employed = data['days_employed'].mean()


print(data['days_employed'].mean())
print(data['days_employed'].median())

data['days_employed'] = data['days_employed'].fillna(mean_days_employed)
print(data['days_employed'].mean())

print(data.isna().sum())
print(data.head(10))

# data['dob_years'] correction
data = data.rename(columns = {'dob_years' : 'job_years'})
print()
print(data.columns)

   children  days_employed  dob_years education  education_id  \
0         1    8437.673028         42    высшее             0   
1         1    4024.803754         36   среднее             1   
2         0    5623.422610         33   Среднее             1   
3         3    4124.747207         32   среднее             1   
4         0  340266.072047         53   среднее             1   
5         0     926.185831         27    высшее             0   
6         0    2879.202052         43    высшее             0   
7         0     152.779569         50   СРЕДНЕЕ             1   
8         2    6929.865299         35    ВЫСШЕЕ             0   
9         0    2188.756445         41   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0    

### Шаг 2.3. Изменение типов данных.

In [4]:
data['total_income'] = data['total_income'].astype(int)
print(data.head(10))

   children  days_employed  job_years education  education_id  \
0         1    8437.673028         42    высшее             0   
1         1    4024.803754         36   среднее             1   
2         0    5623.422610         33   Среднее             1   
3         3    4124.747207         32   среднее             1   
4         0    2353.015932         53   среднее             1   
5         0     926.185831         27    высшее             0   
6         0    2879.202052         43    высшее             0   
7         0     152.779569         50   СРЕДНЕЕ             1   
8         2    6929.865299         35    ВЫСШЕЕ             0   
9         0    2188.756445         41   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M

### Шаг 2.4. Удаление дубликатов.

In [5]:
# Remove duplicates in data['education'] column
print(data['education'].unique())
education_incorrect = {'Среднее':'среднее', 
                       'СРЕДНЕЕ':'среднее', 
                       'ВЫСШЕЕ':'высшее', 
                       'Высшее':'высшее', 
                       'НЕОКОНЧЕННОЕ ВЫСШЕЕ':'неоконченное высшее',
                       'Неоконченное высшее':'неоконченное высшее',
                       'НАЧАЛЬНОЕ':'начальное', 
                       'Начальное':'начальное',
                       'Ученая степень':'ученая степень',
                       'УЧЕНАЯ СТЕПЕНЬ':'ученая степень'
                      }
data['education'] = data['education'].replace(education_incorrect)
print()
print(data['education'].unique())

# Remove duplicates from data
print(data[data.duplicated(subset=['days_employed','job_years','children','income_type'],keep=False)])
print(data[data.duplicated(subset=['days_employed','job_years','children','income_type'],keep=False)].shape[0])
data = data.drop_duplicates().reset_index(drop=True)
print(data.duplicated().sum())
print(data.info())

['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']

['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']
       children  days_employed  job_years education  education_id  \
4             0    2353.015932         53   среднее             1   
12            0    2353.015932         65   среднее             1   
18            0    2353.015932         53   среднее             1   
24            1    2353.015932         57   среднее             1   
25            0    2353.015932         67   среднее             1   
...         ...            ...        ...       ...           ...   
21508         0    2353.015932         62   среднее             1   
21509         0    2353.015932         59    высшее             0   
21510         2    2353.015932         28   среднее             1   
21518         0    235

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [6]:
education_dict = data.drop_duplicates(subset=['education_id']).set_index('education_id')['education'].to_dict()
print(education_dict)

family_status_dict = data.drop_duplicates(subset=['family_status_id']).set_index('family_status_id')['family_status'].to_dict()
print(family_status_dict)

data = data.drop(['education', 'family_status'], axis=1)
print(data.columns)

{0: 'высшее', 1: 'среднее', 2: 'неоконченное высшее', 3: 'начальное', 4: 'ученая степень'}
{0: 'женат / замужем', 1: 'гражданский брак', 2: 'вдовец / вдова', 3: 'в разводе', 4: 'Не женат / не замужем'}
Index(['children', 'days_employed', 'job_years', 'education_id',
       'family_status_id', 'gender', 'income_type', 'debt', 'total_income',
       'purpose'],
      dtype='object')


### Шаг 2.6. Категоризация дохода.

In [7]:
def income_category(income):
    if income <=30000:
        return 'E'
    elif income <=50000:
        return 'D'
    elif income <=200000:
        return 'C'
    elif income <=1000000:
        return 'B'
    else:
        return 'A'
data['total_income_category'] = data['total_income'].apply(income_category)
print(data.head(10))

   children  days_employed  job_years  education_id  family_status_id gender  \
0         1    8437.673028         42             0                 0      F   
1         1    4024.803754         36             1                 0      F   
2         0    5623.422610         33             1                 0      M   
3         3    4124.747207         32             1                 0      M   
4         0    2353.015932         53             1                 1      F   
5         0     926.185831         27             0                 1      M   
6         0    2879.202052         43             0                 0      F   
7         0     152.779569         50             1                 0      M   
8         2    6929.865299         35             0                 1      F   
9         0    2188.756445         41             1                 0      M   

  income_type  debt  total_income                     purpose  \
0   сотрудник     0        253875               покупк

### Шаг 2.7. Категоризация целей кредита.

In [8]:
print(data['purpose'].unique().shape[0])
wrong_purposes_auto = ['приобретение автомобиля', 'на покупку подержанного автомобиля', 'на покупку своего автомобиля', 'автомобили','автомобиль',
                       'сделка с подержанным автомобилем','свой автомобиль', 'сделка с автомобилем','на покупку автомобиля']
right_purpose_auto = 'операции с автомобилем'

wrong_purposes_house = ['покупка жилья','покупка жилья для семьи','покупка недвижимости','покупка коммерческой недвижимости', 
                        'покупка жилой недвижимости','строительство собственной недвижимости', 'недвижимость', 'строительство недвижимости',
                        'операции с коммерческой недвижимостью','строительство жилой недвижимости', 'жилье', 'операции со своей недвижимостью', 
                        'покупка своего жилья', 'операции с недвижимостью','покупка своего жилья','покупка жилья для сдачи', 'ремонт жилью',
                        'операции с жильем']
right_purpose_house = 'операции с недвижимостью'

wrong_purposes_wedding = ['сыграть свадьбу','свадьба','на проведение свадьбы','на проведение свадьбы']
right_purpose_wedding = 'проведение свадьбы'

wrong_purposes_education = ['получение высшего образования','дополнительное образование','заняться образованием', 'получение дополнительного образования',
'профильное образование','высшее образование','заняться высшим образованием','образование']
right_purpose_education = 'получение образования'

def replace_wrong_values(wrong_values,correct_value):
    for wrong_value in wrong_values:
        data['purpose'] = data['purpose'].replace(wrong_value, correct_value)
replace_wrong_values(wrong_purposes_auto, right_purpose_auto)
replace_wrong_values(wrong_purposes_house, right_purpose_house)
replace_wrong_values(wrong_purposes_wedding, right_purpose_wedding)
replace_wrong_values(wrong_purposes_education, right_purpose_education)
print(data['purpose'].unique().shape[0])
print(data['purpose'].unique())

38
4
['операции с недвижимостью' 'операции с автомобилем'
 'получение образования' 'проведение свадьбы']


### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [9]:
# data_children correction
data[data['children'] ==-1] = 0

children = data.groupby('children')['children'].count()
debt = data.groupby('children')['debt'].sum()

#info
print(children)
print(debt)
print(data['debt'].value_counts())

#correlation between amount of children and amount of debt

correlation_children = debt/children
print(correlation_children)

children
0     14138
1      4808
2      2052
3       330
4        41
5         9
20       76
Name: children, dtype: int64
children
0     1063
1      444
2      194
3       27
4        4
5        0
20       8
Name: debt, dtype: int64
debt
0    19714
1     1740
Name: count, dtype: int64
children
0     0.075187
1     0.092346
2     0.094542
3     0.081818
4     0.097561
5     0.000000
20    0.105263
dtype: float64


##### Вывод 1: 
* 1, 2, 4 ребенка - больше всего долга
* 0 - меньше всего

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [10]:
print(data.groupby('family_status_id')['family_status_id'].count())
print(data.groupby('family_status_id')['debt'].sum())
correlation_family_status = (data.groupby('family_status_id')['debt'].sum() / data.groupby('family_status_id')['family_status_id'].count() * 100).reset_index(name='debt_percentage')

correlation_family_status['family_status_id'] = correlation_family_status['family_status_id'].map(family_status_dict)
print(correlation_family_status)

family_status_id
0    12357
1     4146
2      955
3     1191
4     2805
Name: family_status_id, dtype: int64
family_status_id
0    930
1    388
2     63
3     85
4    274
Name: debt, dtype: int64
        family_status_id  debt_percentage
0        женат / замужем         7.526099
1       гражданский брак         9.358418
2         вдовец / вдова         6.596859
3              в разводе         7.136860
4  Не женат / не замужем         9.768271


Мы можем сделать вывод, что наименее подвержены просрочке по выплате кредита вдовец/вдова, а наиболее не женат/не замужем и граждаский брак.

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

## Общий вывод: