# Исследование надёжности заёмщиков

Заказчик - кредитный отдел банка. Банк предоставил данные - статистика о платежеспособности клиентов, на основании которых нужно выяснить, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку. Таким образом: 

**Цель исследования** - Выяснить, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

Для удобства исследования выдвинем **гипотезы:**

1. Между количеством детей у заемщика и возвратом кредита в срок есть зависимость.(Есть ли зависимость между количеством детей и возвратом кредита в срок?)
2. Между семейным положением заемщика и возвратом кредита в срок есть зависимость.(Есть ли зависимость между семейным положением и возвратом кредита в срок?)
3. Между уровнем дохода заемщика и возвратом кредита в срок есть зависимость.(Есть ли зависимость между уровнем дохода и возвратом кредита в срок?)
4. Разные цели кредита влияют на его возврат в срок.(Как разные цели кредита влияют на его возврат в срок?)

**Ход исследования**

Данные, которые предоставил банк находятся в файле `data.csv`. Известно, что в данных есть пропущенные значения и аномалии, но насколько данные грязные неясно, поэтому первым этапом исследования будет обзор данных. Далее на этапе предобработки данных нужно будет исправить самые явные ошибки. Таким образом, исследование пройдет в три этапа: 
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез. 

# Описание данных

* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

## 1 Обзор данных

In [5]:
import pandas as pd
import os
import numpy as np
pd.set_option('float_format', '{:f}'.format)

In [6]:
try:
    os.path.exists('/datasets/data.csv')
    df_raw = pd.read_csv('/datasets/data.csv')
except:
    df_raw = pd.read_csv('data.csv')
df = df_raw.copy()

In [7]:
#получаем случайные 10 строк таблицы df 
df.sample(10, random_state=150)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3977,0,363122.181989,66,среднее,1,женат / замужем,0,M,пенсионер,0,52469.44012,покупка недвижимости
60,1,-2534.46239,48,среднее,1,женат / замужем,0,M,сотрудник,0,129902.283735,заняться образованием
5681,0,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,автомобиль
16871,0,-220.923972,50,среднее,1,женат / замужем,0,M,сотрудник,0,86890.747766,покупка жилья
16987,0,338538.066449,54,среднее,1,гражданский брак,1,F,пенсионер,0,66703.634771,свадьба
19746,0,,57,среднее,1,женат / замужем,0,F,компаньон,0,,получение образования
17858,0,349331.304149,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,116136.260674,жилье
11871,0,-221.044147,54,среднее,1,женат / замужем,0,F,компаньон,0,148638.570112,операции с недвижимостью
20730,0,-3758.464824,56,среднее,1,женат / замужем,0,F,компаньон,0,116081.565706,образование
15854,1,-340.850341,26,высшее,0,Не женат / не замужем,4,M,компаньон,0,238277.990736,операции с недвижимостью


In [8]:
#получение общей информации о данных в таблице df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице 12 столбцов, в таблице присутствует два столбца с типом данных - `float64`, пять - `int64` и еще пять - `object`.
Согласно документации к данным:
* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

В столбцах `days_employed` и `total_income` есть пропуски, узнаем сколько:

In [9]:
#df.isna().sum()/len(df)
df.isna().mean()

children           0.000000
days_employed      0.100999
dob_years          0.000000
education          0.000000
education_id       0.000000
family_status      0.000000
family_status_id   0.000000
gender             0.000000
income_type        0.000000
debt               0.000000
total_income       0.100999
purpose            0.000000
dtype: float64

В столбце `days_employed` 10.1% данных отсутствует

В столбце `total_income` 10.1% данных отсутствует

In [10]:
#Проверим, что строки с пропусками в двух столбцах совпадают:
df.loc[(df['days_employed'].isna()) & (df['total_income'].isna())].count()

children            2174
days_employed          0
dob_years           2174
education           2174
education_id        2174
family_status       2174
family_status_id    2174
gender              2174
income_type         2174
debt                2174
total_income           0
purpose             2174
dtype: int64

In [11]:
#Возможно между пропусками есть какая-то связь, напишем функцию:
try:
    def nan_reason(nan_column,reason_column):
        a = df.loc[df[nan_column].isnull()][reason_column].value_counts()
        return(a)
except:
    print('Что-то пошло не так')

In [None]:
#Возможно, есть связь с типо занятости:
nan_reason('days_employed', 'income_type')

In [None]:
#Возможно, есть связь с задолжностями:
nan_reason('days_employed', 'debt')

In [None]:
#Возможно, есть связь с уровнем образования: 
nan_reason('days_employed', 'education')

In [None]:
#Связь с целью кредита:
nan_reason('days_employed', 'purpose')

In [None]:
#Связь с количеством детей:
nan_reason('days_employed','children')

In [None]:
#Связь с возрастом:
nan_reason('days_employed', 'dob_years')

In [None]:
#Связь с полом:
nan_reason('days_employed','gender')

Установить связь пропусков в `total_income` и `days_employed` c другими столбцами не удалось. Единственное, что удалось выяснить, что строки с пропусками в `total_income` совпадают с пропусками в `days_employed`.

 ## 2 Предобработка данных


### 2.1 Пропуски в `total_income`

В таблице есть два столбца с пропущенными значениями: `days_employed` и `total_income`, пропущенные значения заполнены `NaN`, тип данных `float`. Так как установить связь в пропущенных значениях с другими столбцами не удалось, а единственное, что известно, это, что строки с пропусками в `total_income` совпадают с пропусками в `days_employed`, будем считать, что пропуски не случайные, возможно, заемщики не захотели раскрывать свои доходы. Процентное соотношение данных к таблице в этих стобцах равно `10.1%`. Заполнять будем медианой, так как медиана в отличии от среднего устойчивее к выбросам в данных. Сначала заполним `total_income`, но попробуем предварительно посчитать медиану `total_income` по каждому `income_type`:

In [15]:
#Посмотрим какая медиана по `total_income` до преобразований:
df['total_income'].median()

145017.93753253992

In [16]:
#Медиана по каждому 'income_type':
median_by_income_type = df.groupby('income_type')['total_income'].median()
median_by_income_type

income_type
безработный       131339.751676
в декрете          53829.130729
госслужащий       150447.935283
компаньон         172357.950966
пенсионер         118514.486412
предприниматель   499163.144947
сотрудник         142594.396847
студент            98201.625314
Name: total_income, dtype: float64

In [17]:
df['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

Мы видим, что все медианные значения по `income_type` выглядят реальными и их можно объяснить. Также видим, что из всего списка заемщиков всего 2 предринимателя, 2 безработных, 1 студент и 1 в декрете, так как на цели исследования это никак не влияет, не будет обращать на это внимание. 

Приступаем к заполнению `total_income`:


In [None]:
#Для проверки создадим `series` с пропусками в столбце 'total_income' в переменную `total_income_nan_check`:
total_income_nan_check = df.loc[df['total_income'].isna()]['total_income']
total_income_nan_check

In [19]:
#Заполняет `total_income`:
df['total_income'] = df['total_income'].fillna(df.groupby('income_type')['total_income'].transform('median'))

In [20]:
#Проверяем, заполнились ли пропуски:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

In [None]:
#Посмотрим, как заполнились пропуски:
qwer = []
for ind in total_income_nan_check.index:
    qwer.append(df.loc[ind])
qwer
#красиво не получилось вывести 

In [22]:
#Посмотрим какая медиана по `total_income` после преобразований:
df['total_income'].median()

142594.39684740017

Пропуски в `total_income` заполнены медианой по группам.

### 2.2 Обработка аномалий и заполнение пропусков в `df` и `days_emploed`

In [None]:
#начнем с обработки значений в столбцах, для это выведем уникальные значения в каждом столбце:
for column in df:
    display(df[column].value_counts())
    

Что нужно обработать: 
1) В столбце `children` данные распределены между от -1 до 20, часть данных выглядит нереалистично, показатель -1 и 20 выбивается из общего ряда. Так как данный показатель важен для цели исследования, посмотрим какую долю от общего количества данных и какую долю от общего количества детей занимают аномалии.

2) В столбце `dob_years` есть показатель с 0, возможно это опечатка с 20 или с 30.

3) В `gender` есть одна строка с показателем `XNA`, просто удалим ее.

4) В столбце `days_employed` присутствуют отрицательные данные, пропуски, а также есть выбросы, нужно посмотреть поближе, чтобы сказать почему могли возникнуть аномалии. Привести к целочисленному значению.


Потом:

* В `total_income` привести к целочисленному значению.

* Удалить строки дубликаты

* В `family_status` данные не дублируются, но нарушен нижний регистр.

* В столбце `education` нарушен регистр.

* В `family_status` данные не дублируются, но нарушен нижний регистр.

* В `purpose` в данных очень много неявных дубликатов.

#### Обработка `children`

In [24]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [25]:
# Посчитаем количество аномальных данных в столбце `children`:
anomaly_children = df.loc[(df['children'] == -1) | (df['children'] == 20)]['children'].count()
anomaly_children

123

In [26]:
# Посчитаем количество правдивых данных с детьми в столбце `children`:
not_anomaly_choldren = df.loc[df['children'] != 0]['children'].count() - anomaly_children
not_anomaly_choldren

7253

In [27]:
print('Отношение аномалий в `children` ко всем заемщикам равно {:.1%}'.format(anomaly_children/len(df['children'])))
print('Отношение аномалий в `children` ко всем заемщикам с детьми равно {:.1%}'.format(anomaly_children/not_anomaly_choldren))

Отношение аномалий в `children` ко всем заемщикам равно 0.6%
Отношение аномалий в `children` ко всем заемщикам с детьми равно 1.7%


Показатель важен, будем считать, что это опечатка, тогда обработаем аномалии по принципу: 

* -1 это опечатка от 1
* 20 это опечатка от 2, так как предыдущий максимальный показатель 5 и между 5 и 20 нет никаких данных. 

In [28]:
# Заменяем значения:
df['children'] = df['children'].replace(-1, 1)
df['children'] = df['children'].replace(20, 2)
#Проверяем:
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

#### Обработка `dob_years`

In [29]:
#Смотрим сколько данных с значением 0:
df.loc[df['dob_years'] == 0]['dob_years'].count()

101

In [30]:
print('''Процентное соотношение данных с 0 ко всей таблице равно {:.1%}'''
      .format(df.loc[df['dob_years'] == 0]['dob_years'].count()/len(df['dob_years'])))

Процентное соотношение данных с 0 ко всей таблице равно 0.5%


Данные незначительны, к тому же, трудно восстановить такие данные, это может быть опечатка от 20, 30 и тд. Просто удалим данные строчки:

In [31]:
# Удаляем строчки с `dob_years` = 0:
df = df.loc[df['dob_years'] != 0]
# Проверяем:
df.loc[df['dob_years'] == 0]['dob_years'].count()

0

#### Обработка `gender`

In [32]:
df['gender'].value_counts()

F      14164
M       7259
XNA        1
Name: gender, dtype: int64

In [33]:
# В данных присутствует один неизвестный пол, просто удалим строчку:
df = df.loc[df['gender'] != 'XNA']

In [34]:
# Провеярем:
df['gender'].value_counts()

F    14164
M     7259
Name: gender, dtype: int64

#### Обработка `days_employed`

Будем считать, что отрицательные данные в `days_employed` возникли из за опечатки. Возведем отрицательные значения в абсолютные. Также оценим сколько выбросов в данных. 

In [35]:
# Узнаем, удалились ли пустые строчки в `days_employed`:
df.isna().sum()

children               0
days_employed       2164
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

In [36]:
#Посмотрим какой % данных в столбце 'days_employed' отрицательный:
print('Отрицательный процент данных в `days_employed` равен {:.1%} '
      .format(df.loc[df['days_employed'] < 0]['days_employed'].count() / len(df['days_employed'])))

Отрицательный процент данных в `days_employed` равен 73.9% 


In [37]:
#Приведем данные к абсолютному значению:
df['days_employed'] = abs(df['days_employed'])
#Проверим:
df['days_employed'].describe()

count    19259.000000
mean     66905.789237
std     139025.028132
min         24.141633
25%        926.823974
50%       2197.320350
75%       5540.399763
max     401755.400475
Name: days_employed, dtype: float64

В данных наблюдаются аномалии по количеству рабочих дней в трудовом стаже. Предположим, что каждый заемщик начал трудовую деятельность в 16 лет, тогда посчитаем, у какого количества заемщиков данные неправдивы:

In [38]:
df.loc[df['days_employed'] > (df['dob_years']-16)*365]['days_employed'].count()

3517

In [39]:
# Посмотрим процентное соотношение выбросов при условии, что человека с рождения начал трудовую деятельность:
print('''Процент выбросов в `days_employed` равен {:.1%} '''
      .format(df.loc[df['days_employed'] > (df['dob_years'])*365]['days_employed'].count() / len(df['days_employed'])))

Процент выбросов в `days_employed` равен 16.0% 


In [40]:
# Процентное отношение выбросов, при условии, что человек начал трудовую деятельность с 16 лет:
print('''Процент выбросов в `days_employed` равен {:.1%} '''
      .format(df.loc[df['days_employed'] > (df['dob_years']-16)*365]['days_employed'].count() / len(df['days_employed'])))

Процент выбросов в `days_employed` равен 16.4% 


In [41]:
# Пройдемся по столбцу `days_employed` и поменяем все выбросы на `NaN`:
for ind in df.index:
    if df.loc[ind,'days_employed'] > (df.loc[ind, 'dob_years'] - 16)*365:
        df.loc[ind, 'days_employed'] = np.nan
# Проверим себя, ранее мы увидили, что после удаления 101 строки с нулевым значением в `dob_years` и 1 строки в `gender`
# уменьшилось количество пропусков в `days_employed` и стало равно 2164, а также мы знаем что аномалий 
# в `days_employed`3835 => после замены аномалий на `NaN` количество пропусков будет равно 2164+3517 = 5681:
df.isna().sum()

children               0
days_employed       5681
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

На данном этапе нужно заполнить пропуски в столбце `days_employed`, попробуем это сделать 3 разными способами, разными по точности: 
1) Создадим столбец `days_employed_v1`, где пропуски заполним просто медианным значением по всему столбцу.

2) Создадим столбец `days_employed_v2`, где пропуски будем заполнять медианным значением по каждому возрасту.

3) Создадим столбец `avg_days_employed_on_dob_years`, в котором мы посчитатем сколько каждый человек в среднем работал за год трудовой деятельности, затем возьмем медиану от этого столбца и заполним пропуски путем умножения полученного показателя на количество лет трудовой деятельности. Результат в `days_employed_v3`

In [42]:
df['days_employed_v1'] = df['days_employed'].fillna(df['days_employed'].median())

In [43]:
df['days_employed_v2'] = df['days_employed'].fillna(df.groupby('dob_years')['days_employed'].transform('median'))

In [44]:
df['avg_days_employed_on_dob_years'] = df['days_employed'] / (df['dob_years']-16)
df['days_employed_v3'] = df['days_employed'].fillna(df['avg_days_employed_on_dob_years'].median()*(df['dob_years']-16))

In [45]:
df = df.drop(columns=['avg_days_employed_on_dob_years'], axis = 1)

In [46]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income,days_employed_v1,days_employed_v2,days_employed_v3
count,21423.0,15742.0,21423.0,21423.0,21423.0,21423.0,21423.0,21423.0,21423.0,21423.0
mean,0.479671,2315.566043,43.49839,0.817859,0.971293,0.080894,165263.932208,2130.790283,2307.7111,2482.115175
std,0.755304,2235.452068,12.246495,0.548178,1.41977,0.272679,98154.893805,1940.776862,1954.506535,1996.366886
min,0.0,24.141633,19.0,0.0,0.0,0.0,20667.263793,24.141633,24.141633,24.141633
25%,0.0,751.731878,33.0,1.0,0.0,0.0,107822.087173,1025.636694,1005.572367,975.89008
50%,0.0,1618.778311,43.0,1.0,0.0,0.0,142594.396847,1618.778311,1974.658141,2138.09989
75%,1.0,3123.510043,53.0,1.0,1.0,0.0,195514.663363,2481.888048,2830.361431,3461.093267
max,5.0,16119.687737,75.0,4.0,4.0,1.0,2265604.028723,16119.687737,16119.687737,16119.687737


In [47]:
# Медиана первым способом:
df['days_employed_v1'].median()

1618.778311069244

In [48]:
# Медиана вторым способом:
df['days_employed_v2'].median()

1974.6581408064328

In [49]:
# Медиана третьим способом: 
df['days_employed_v3'].median()

2138.099889779742

Оценив данные, мне кажется, что самым приближенным показателем является медиана, посчитанная 3им способом. Заполним пропущенные значения в `days_employed` медианой из 3го способа и удалим лишние столбцы.

In [50]:
# посмотрим чем будем заполнять:
df['days_employed_v3'].value_counts()


3405.122047    290
3484.310931    283
3642.688701    273
3246.744277    269
3325.933162    264
              ... 
445.286433       1
1133.987382      1
5730.178239      1
429.448441       1
1984.507589      1
Name: days_employed_v3, Length: 15798, dtype: int64

In [51]:
# Меняем:
df['days_employed'] = df['days_employed_v3']


In [52]:
# Проверяем:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income,days_employed_v1,days_employed_v2,days_employed_v3
count,21423.0,21423.0,21423.0,21423.0,21423.0,21423.0,21423.0,21423.0,21423.0,21423.0
mean,0.479671,2482.115175,43.49839,0.817859,0.971293,0.080894,165263.932208,2130.790283,2307.7111,2482.115175
std,0.755304,1996.366886,12.246495,0.548178,1.41977,0.272679,98154.893805,1940.776862,1954.506535,1996.366886
min,0.0,24.141633,19.0,0.0,0.0,0.0,20667.263793,24.141633,24.141633,24.141633
25%,0.0,975.89008,33.0,1.0,0.0,0.0,107822.087173,1025.636694,1005.572367,975.89008
50%,0.0,2138.09989,43.0,1.0,0.0,0.0,142594.396847,1618.778311,1974.658141,2138.09989
75%,1.0,3461.093267,53.0,1.0,1.0,0.0,195514.663363,2481.888048,2830.361431,3461.093267
max,5.0,16119.687737,75.0,4.0,4.0,1.0,2265604.028723,16119.687737,16119.687737,16119.687737


In [53]:
# Удаляем:
df = df.drop(columns=['days_employed_v1','days_employed_v2','days_employed_v3'], axis = 1)

In [54]:
# Смотрим и проверяем:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,2929.988738,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [55]:
# Еще раз:
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### 2.3 Замена типа данных в `total_income`

In [56]:
# Приводим к целочисленным значениям:
df['total_income'] = df['total_income'].astype('int')

In [57]:
# Проверяем:
df.loc[df['total_income'] < 0]['total_income'].count()

0

### 2.4 Обработка  на дубликаты:

#### 2.4.1 Обработка неявных дубликатов

In [58]:
# Проверим, какое количество дубликатов дошло до этого этапа:
df.duplicated().sum()

54

In [59]:
df['education'].value_counts()

среднее                13691
высшее                  4686
СРЕДНЕЕ                  770
Среднее                  708
неоконченное высшее      665
ВЫСШЕЕ                   273
Высшее                   266
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [60]:
# Приводим к нижнему регистру:
df['education'] = df['education'].str.lower()

In [61]:
# Проверям: 
df['education'].value_counts()

среднее                15169
высшее                  5225
неоконченное высшее      741
начальное                282
ученая степень             6
Name: education, dtype: int64

In [62]:
# Посмотрим, сколько дубликатов стало после обработки столбца `education`:
df.duplicated().sum()

71

Заодно приведем `family_status` к нижнему регистру.

In [63]:
df['family_status'].value_counts()

женат / замужем          12331
гражданский брак          4155
Не женат / не замужем     2797
в разводе                 1185
вдовец / вдова             955
Name: family_status, dtype: int64

In [64]:
df['family_status'] = df['family_status'].str.lower()

In [65]:
df['family_status'].value_counts()

женат / замужем          12331
гражданский брак          4155
не женат / не замужем     2797
в разводе                 1185
вдовец / вдова             955
Name: family_status, dtype: int64

#### 2.4.2Удаление строк-дубликатов

In [66]:
# Посмотрим сколько дубликатов было в сырых данных:
df_raw.duplicated().sum()

54

In [67]:
# Посмотрим на эти дубликаты:
df.loc[df.duplicated() == True]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,1979.722120,41,среднее,1,женат / замужем,0,F,сотрудник,0,142594,покупка жилья для семьи
3290,0,3325.933162,58,среднее,1,гражданский брак,1,F,пенсионер,0,118514,сыграть свадьбу
4182,1,1425.399927,34,высшее,0,гражданский брак,1,F,сотрудник,0,142594,свадьба
4851,0,3484.310931,60,среднее,1,гражданский брак,1,F,пенсионер,0,118514,свадьба
5557,0,3325.933162,58,среднее,1,гражданский брак,1,F,пенсионер,0,118514,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,3801.066471,64,среднее,1,женат / замужем,0,F,пенсионер,0,118514,дополнительное образование
21032,0,3484.310931,60,среднее,1,женат / замужем,0,F,пенсионер,0,118514,заняться образованием
21132,0,2454.855429,47,среднее,1,женат / замужем,0,F,сотрудник,0,142594,ремонт жилью
21281,1,1108.644387,30,высшее,0,женат / замужем,0,F,сотрудник,0,142594,покупка коммерческой недвижимости


In [None]:
# Посмотрим на дубликаты в сырых данных:
df_raw.loc[df_raw.duplicated() == True]

В сырых данных дубликаты были из за наличия `NaN` в столбцах `days_employed` и `total_income`, в обработанных данных, хоть мы и обрабатывали количественные столбцы разными способами, дубликатов перенеслись. Это видно, если посмотреть, на строчку `4851`, в этой строке показатели в столбцах `days_employed` и `total_income` идентичны тем, что мы вставляли, когда заполняли пропуски. Также после обработки столбца`education` вылезли новые дубликаты.  До обработки столбца`education` дубликатов было 54. Стало 71.


In [69]:
# Удалим дубликаты: 
df = df.drop_duplicates().reset_index(drop=True)

In [70]:
# Проверим: 
df.duplicated().sum()

0

In [None]:
df['purpose'].value_counts()

### 2.5 Создание "словарей"

Создадим два новых датафрейма: 
* `df_education_id`, в котором каждому уникальному значению из `education` соответствует уникальное значение `education_id`

* `df_family_status_id` в котором каждому уникальному значению из `family_status` соответствует уникальное значение `family_status_id`

Затем удалим из `df` столбцы `education` и `family_status`:

In [72]:
# Создаем:
df_education_id = df[['education_id', 'education']]
df_family_status_id = df[['family_status_id','family_status']]
# Удаляем:
df = df.drop(columns=['family_status', 'education'], axis = 1)

In [73]:
# Проверяем:
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,2929.988738,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


In [74]:
# Удаляем дубликаты:
df_education_id = df_education_id.drop_duplicates().reset_index(drop=True)

In [75]:
# Удаляем дубликаты:
df_family_status_id = df_family_status_id.drop_duplicates().reset_index(drop=True)

### 2.6 Создание категории `total_income_category`

На основании диапазонов, указанных ниже, создадим столбец total_income_category с категориями:

`0–30000 — 'E'`;

`30001–50000 — 'D'`;

`50001–200000 — 'C'`;

`200001–1000000 — 'B'`;

`1000001 и выше — 'A'`.

Например, кредитополучателю с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'.
Чтобы разбить на категории, напишем функцию: 

In [76]:
def income_categories(income):
    if 0 < income < 30000:
        return 'E'
    elif 30001 < income < 50000:
        return 'D'
    elif 50001 < income < 200000:
        return 'C'
    elif 200001 < income < 1000000:
        return 'B'
    elif income > 1000001: 
        return 'A'

Создадим столбец `total_income_category` и с помощью метода `apply()` перенесем результаты функции `income_categories`, метод `apply()` будем вызывать к столбцу `total_income`:

In [77]:
df['total_income_category'] = df['total_income'].apply(income_categories)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,2929.988738,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


### 2.7 Создание категории `purpose_category`

Создадим функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:

`операции с автомобилем`,

`операции с недвижимостью`,

`проведение свадьбы`,

`получение образования`.


In [78]:
# Посмотрим на возможные категории:
df['purpose'].value_counts()

свадьба                                   786
на проведение свадьбы                     764
сыграть свадьбу                           760
операции с недвижимостью                  672
покупка коммерческой недвижимости         658
покупка жилья для сдачи                   649
операции с коммерческой недвижимостью     648
операции с жильем                         646
покупка жилья                             640
жилье                                     640
покупка жилья для семьи                   637
строительство собственной недвижимости    633
недвижимость                              629
операции со своей недвижимостью           627
строительство жилой недвижимости          621
строительство недвижимости                619
покупка своего жилья                      619
покупка недвижимости                      617
ремонт жилью                              605
покупка жилой недвижимости                603
на покупку своего автомобиля              502
заняться высшим образованием      

In [79]:
def purpose_categories(row):
    if 'свадьб' in row:
        return 'проведение свадьбы'
    
    elif 'недвижимост' in row:
        return 'операции с недвижимостью'
    
    elif 'автомобил' in row:
        return 'операции с автомобилем'
    
    elif 'образовани' in row:
        return 'получение образования'
        
    elif 'жил' in row:
        return 'операции с недвижимостью'
    else:
        return 'другое'


In [80]:
df['purpose_category'] = df['purpose'].apply(purpose_categories)

In [81]:
#Проверяем:
df['purpose_category'].value_counts()

операции с недвижимостью    10763
операции с автомобилем       4284
получение образования        3995
проведение свадьбы           2310
Name: purpose_category, dtype: int64

In [82]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   children               21352 non-null  int64  
 1   days_employed          21352 non-null  float64
 2   dob_years              21352 non-null  int64  
 3   education_id           21352 non-null  int64  
 4   family_status_id       21352 non-null  int64  
 5   gender                 21352 non-null  object 
 6   income_type            21352 non-null  object 
 7   debt                   21352 non-null  int64  
 8   total_income           21352 non-null  int32  
 9   purpose                21352 non-null  object 
 10  total_income_category  21351 non-null  object 
 11  purpose_category       21352 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 1.9+ MB


## 3 Проверка гипотез

### 3.1 Между количеством детей у заемщика и возвратом кредита в срок есть зависимость.

In [83]:
#Посмотрим, какой % кредитов не выплачивался в вовремя:
df.loc[df['debt'] == 1]['debt'].count()/len(df)*100

8.116335706257024

In [84]:
#Посмотрим, какой % кредитов не выплачивался в вовремя, при наличии детей, но вне зависимости от их количества,по 
#отношению ко всем заемщикам:
df.loc[(df['debt'] == 1) & (df['children'] != 0)]['debt'].count()/len(df)*100

3.1612963656800304

In [85]:
#Посмотрим, какой % кредитов не выплачивался в вовремя, при наличии детей, но вне зависимости от их количества,по 
#отношению к заемщикам с детьми:
df.loc[(df['debt'] == 1) & (df['children'] != 0)]['debt'].count() / df.loc[df['children'] != 0]['debt'].count()*100

9.207475105715455

Построим сводную таблицу задолженность / дети:

In [86]:
pivot_table_check_children = df.pivot_table(index=['debt'], columns='children', values='gender', aggfunc='count')

In [87]:
pivot_table_check_children

children,0,1,2,3,4,5
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,12963.0,4397.0,1912.0,301.0,37.0,9.0
1,1058.0,442.0,202.0,27.0,4.0,


In [88]:
children0 = pivot_table_check_children[0][1] / (pivot_table_check_children[0][0] + pivot_table_check_children[0][1])
children1 = pivot_table_check_children[1][1] / (pivot_table_check_children[1][0] + pivot_table_check_children[1][1])
children2 = pivot_table_check_children[2][1] / (pivot_table_check_children[2][0] + pivot_table_check_children[2][1])
children3 = pivot_table_check_children[3][1] / (pivot_table_check_children[3][0] + pivot_table_check_children[3][1])
children4 = pivot_table_check_children[4][1] / (pivot_table_check_children[4][0] + pivot_table_check_children[4][1])

print("{0:.2f}% кредитов не выплачивалось вовремя, среди заемщиков без детей".format(children0*100))
print("{0:.2f}% кредитов не выплачивалось вовремя, среди заемщиков с 1 ребенком".format(children1*100))
print("{0:.2f}% кредитов не выплачивалось вовремя, среди заемщиков с 2 детьми".format(children2*100))
print("{0:.2f}% кредитов не выплачивалось вовремя, среди заемщиков с 3 детьми".format(children3*100))
print("{0:.2f}% кредитов не выплачивалось вовремя, среди заемщиков с 4 детьми".format(children4*100))

7.55% кредитов не выплачивалось вовремя, среди заемщиков без детей
9.13% кредитов не выплачивалось вовремя, среди заемщиков с 1 ребенком
9.56% кредитов не выплачивалось вовремя, среди заемщиков с 2 детьми
8.23% кредитов не выплачивалось вовремя, среди заемщиков с 3 детьми
9.76% кредитов не выплачивалось вовремя, среди заемщиков с 4 детьми


Можно сделать вывод, что заемщики без детей реже просрочивают выплаты по кредиту. 

### 3.2 Между семейным положением заемщика и возвратом кредита в срок есть зависимость.

In [89]:
# Сводная таблица задолженность / семейный статус:
pivot_table_check_family = df.pivot_table(index=['debt'], columns='family_status_id' , values='gender', aggfunc='count')

In [90]:
pivot_table_check_family

family_status_id,0,1,2,3,4
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,11363,3743,892,1100,2521
1,927,386,62,85,273


In [91]:
#что нашел:
pivot_table_check_family.apply(lambda x:100 * x / float(x.sum()))

family_status_id,0,1,2,3,4
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,92.457282,90.651489,93.501048,92.827004,90.229062
1,7.542718,9.348511,6.498952,7.172996,9.770938


In [92]:
# Проверим, что метод выше не врет:
family_id_0 = pivot_table_check_family[0][1] / (pivot_table_check_family[0][0] + pivot_table_check_family[0][1])
family_id_1 = pivot_table_check_family[1][1] / (pivot_table_check_family[1][0] + pivot_table_check_family[1][1])
family_id_2 = pivot_table_check_family[2][1] / (pivot_table_check_family[2][0] + pivot_table_check_family[2][1])
family_id_3 = pivot_table_check_family[3][1] / (pivot_table_check_family[3][0] + pivot_table_check_family[3][1])
family_id_4 = pivot_table_check_family[4][1] / (pivot_table_check_family[4][0] + pivot_table_check_family[4][1])

print("{0:.2f}% кредитов не выплачивалось вовремя, среди женатых/замужних заемщиков".format(family_id_0*100))
print("{0:.2f}% кредитов не выплачивалось вовремя, среди заемщиков в гражданском браке ".format(family_id_1*100))
print("{0:.2f}% кредитов не выплачивалось вовремя, среди заемщиков вдовцов/вдов".format(family_id_2*100))
print("{0:.2f}% кредитов не выплачивалось вовремя, среди заемщиков в разводе ".format(family_id_3*100))
print("{0:.2f}% кредитов не выплачивалось вовремя, среди не женатых/не замужних заемщиков ".format(family_id_4*100))


7.54% кредитов не выплачивалось вовремя, среди женатых/замужних заемщиков
9.35% кредитов не выплачивалось вовремя, среди заемщиков в гражданском браке 
6.50% кредитов не выплачивалось вовремя, среди заемщиков вдовцов/вдов
7.17% кредитов не выплачивалось вовремя, среди заемщиков в разводе 
9.77% кредитов не выплачивалось вовремя, среди не женатых/не замужних заемщиков 


Можно сделать вывод, что заемщики, имевшие штамп в паспорте(вдовцы, разведенные, женатые)  реже просрочивают кредит, в сравнении, с заемщиками, которые не были отягощены узами брака(гражданский брак, не женатые).

### 3.3 Между уровнем дохода заемщика и возвратом кредита в срок есть зависимость.

In [93]:
# Сводная таблица задолженность / категория дохода:
pivot_table_check_salary = df.pivot_table(index=['debt'], columns='total_income_category', values='gender', aggfunc='count')

In [94]:
pivot_table_check_salary.apply(lambda x:100 * x / float(x.sum()))

total_income_category,A,B,C,D,E
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,92.0,92.919824,91.512985,93.965517,90.909091
1,8.0,7.080176,8.487015,6.034483,9.090909


Зависимости между уровнем дохода и возвратом кредита в срок нет.

### 3.4 Разные цели кредита влияют на его возврат в срок.

In [95]:
# Сводная таблица задолженность / цели кредита:
pivot_table_check_goal = df.pivot_table(index=['debt'], columns='purpose_category', values='gender', aggfunc='count')

In [96]:
pivot_table_check_goal.apply(lambda x:100 * x / float(x.sum()))

purpose_category,операции с автомобилем,операции с недвижимостью,получение образования,проведение свадьбы
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,90.662932,92.762241,90.738423,92.034632
1,9.337068,7.237759,9.261577,7.965368


Заемщики, с целью кредита операции с недвижимостью и проведение свадьбы чаще возвращают кредит в срок, чем заемщики, цель кредита которых операции с автомобилем и получение образования. 

## 4 Итоги исследования

Мы проверили обработали данные на пропуски и аномалии, подготовили их к анализу и проверили 4 гипотезы:
1. Заемщики без детей реже просрочивают выплаты по кредиту, между количеством детей и количеством просроченных кредитов есть зависимость.

2. Между семейным положением и выплатой кредитов в срок тоже есть зависимость, причем, интересен тот факт, что заемщики, у которых был или есть официальный брак реже просрочивают выплаты.

3. Между уровнем дохода и выплатами кредита в срок нет прямой зависимости. Возможно на результат проверки данной гипотезы повлияли пропуски в `total_income`, или способ, которым мы заполняли пропуски. 

4. Цель  кредита влияет на его возврат в срок, так, мы можем утверждать, что заемщики, с целями кредита `операции с недвижимостью` и `проведение свадьбы` относятся более ответственно к погашению кредита в срок. 