# Исследование надежности заемщиков

***Заказчик:*** кредитный отдел банка. 

***Цель:*** Разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

***Описание данных:***

- children (количество детей в семье)
- days_employed (общий трудовой стаж в днях)
- dob_years — (возраст клиента в годах)
- education — (уровень образования клиента)
- education_id — (идентификатор уровня образования)
- family_status — (семейное положение
- family_status_id — (идентификатор семейного положения)
- gender — (пол клиента)
- income_type — (тип занятости)
- debt — (имел ли задолженность по возврату кредитов)
- total_income — (ежемесячный доход)
- purpose — (цель получения кредита)

## 1. Загрузка бибилиотек и знакомство с данными


In [4]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [5]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## 2. Предобработка данных

### 2.1 Удаление пропусков

Посмотрим на пропущенные значения в каждом столбце

In [10]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Столбец с пропущенными значениями — total_income — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполним пропуски в этом столбце медианным значением по каждому типу из столбца income_type.

In [12]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### 2.2 Обработка аномальных значений

При знакомстве с данными обнаружено отрицательное количество дней трудового стажа в столбце ***days_employed***. Заменим все отрицательные значения положительными с помощью метода ***abs()***

In [15]:
data['days_employed'] = data['days_employed'].abs()

Рассчитаем медианное значение трудового стажа ***days_employed*** в днях для каждого типа занятости

In [17]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть.

Посмотрим на уникальные значения столбца ***children***

In [20]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Видно, что присутствуют 2 аномальных значения в этом столбце, это 20 детей и -1 ребенок. Удалим данные с такими показателями

In [22]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

### 2.3 Удаление пропусков (продолжение)

Заполним пропуски в столбце ***days_employed*** медианными значениями по каждого типа занятости ***income_type`.***

In [25]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

### 2.4 Изменение типов данных

Заменим вещественный тип данных в столбце ***total_income*** на целочисленный с помощью метода ***astype().***

In [28]:
data['total_income'] = data['total_income'].astype(int)

### 2.5 Обработка дубликатов

В столбце education есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру.

In [31]:
data['education'] = data['education'].str.lower()

Посмотрим присутствуют ли строки дубликаты в данных и удалим при наличии.

In [33]:
data.duplicated().sum()

71

In [34]:
data = data.drop_duplicates()

### 2.6 Категоризация данных

У нас уже есть категории по диапазону дохода, создадим в датафрейме ***data*** столбец ***total_income_category*** используя собственную функцию с именем ***categorize_income()***
- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [37]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [38]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

Теперь выведем перечень уникальных целей взятия кредита из столбца ***purpose.***

In [40]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию ***categorize_purpose()***, которая на основании данных из столбца ***purpose*** сформирует новый столбец ***purpose_category***, в который войдут следующие категории:

- 'операции с автомобилем',
- 'операции с недвижимостью',
- 'проведение свадьбы',
- 'получение образования'.

In [42]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [43]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

*Для исследования взаимосвязи между возвратом кредита и количеством детей, обратимся к столбцу debt - он отражает наличие задолженности у клиента по кредитам. Где 1, - задолженности есть, 0 - их отсутствие. Сгруппируем клиентов по количеству детей и наличию\отсутствию задолженностей.*

In [47]:
print(data.groupby('children')['debt'].value_counts())

children  debt
0         0       13028
          1        1063
1         0        4364
          1         444
2         0        1858
          1         194
3         0         303
          1          27
4         0          37
          1           4
5         0           9
Name: count, dtype: int64


***Очевидно, что группы слишком разные по численности, поэтому сравнение их друг с другом не показательно. Мы будем использовать долю должников в каждой группе и сравним этот показатель.***


*Теперь добавим сводную таблицу указав в ней количество клиентов в каждой группе, количество должников и долю должников в процентном соотношении.*

In [50]:
debt_grouped = data.pivot_table(index='children', values='debt', aggfunc=['mean', 'sum', 'count'])
debt_grouped.columns = ['debtors','presence_of_debts', 'total']
debt_grouped['debtors'] = debt_grouped['debtors']*100
print(debt_grouped)

           debtors  presence_of_debts  total
children                                    
0         7.543822               1063  14091
1         9.234609                444   4808
2         9.454191                194   2052
3         8.181818                 27    330
4         9.756098                  4     41
5         0.000000                  0      9


**Вывод:** 

* Во всех группах более 90% клиентов не имеют задолженностей. Это говорит о том, что независимо от количества детей клиенты хорошо справляются с долговыми обязательствами.
* Обратим внимание на группу с 5 детьми. Процент выплат самый высокий - 100%, но при этом самая малочисленная - 9 человек и такой выборки может быть недостаточно для окончательного вывода.
* На втором месте по выплате кредитов идет группа без детей. Это может указывать на то, что люди без дополнительных финансовых обязательств лучше справляются с выплатами.
* Прямой зависимости выплаты кредитов от количества детей полученные данные не показываютю Возмодно требуется более глуокий анализ для учета дополнительных факторов.

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

*В таблице представлены 5 вариантов семейного положения:*
* 0 - женат/замужем
* 1 - гражданский брак
* 2 - вдовец/вдова 
* 3 - в разводе 
* 4 - не женат/не замужем 

*Сгруппируем клиентов по семеному положению и наличию\отсутствию задолженностей.*

In [55]:
print(data.groupby('family_status')['debt'].value_counts())

family_status          debt
Не женат / не замужем  0        2523
                       1         273
в разводе              0        1105
                       1          84
вдовец / вдова         0         888
                       1          63
гражданский брак       0        3749
                       1         385
женат / замужем        0       11334
                       1         927
Name: count, dtype: int64


*Посчитаем количество клиентов в каждой группе*

In [57]:
total = data.groupby('family_status').agg({'debt':'count'})
total.reset_index(inplace=True)
print(total)

           family_status   debt
0  Не женат / не замужем   2796
1              в разводе   1189
2         вдовец / вдова    951
3       гражданский брак   4134
4        женат / замужем  12261


*Для дальнейших рассчетов создадим новую таблицу в переменной debt_family_status_grouped на основании исходного датафрейма*

In [59]:
debt_family_status = data.pivot_table(index='family_status', columns='debt', aggfunc={'debt': 'count'})
debt_family_status.columns = ['no_debt', 'presence_of_debts']
print(debt_family_status)

                       no_debt  presence_of_debts
family_status                                    
Не женат / не замужем     2523                273
в разводе                 1105                 84
вдовец / вдова             888                 63
гражданский брак          3749                385
женат / замужем          11334                927


*Теперь объединим данные с общим количеством клиентов из переменной total и переменной debt_family_status для получения общей информации по каждой категории*

In [61]:
debt_family_status_grouped = pd.merge(debt_family_status, total, on='family_status')
debt_family_status_grouped.columns = ['family_status', 'no_debt', 'presence_of_debts', 'total']
print(debt_family_status_grouped)

           family_status  no_debt  presence_of_debts  total
0  Не женат / не замужем     2523                273   2796
1              в разводе     1105                 84   1189
2         вдовец / вдова      888                 63    951
3       гражданский брак     3749                385   4134
4        женат / замужем    11334                927  12261


***Больше всего выдано кредитов клиентам с семейным положением "женат|замужем". А следом за ними по количеству клиентов идет семейное положение "гражданский брак". Предварительно можно сделать вывод что те, кто состоят в отношениях задумываются об улучшении своих жизненных условий, что приводит к потребности в дополнительных финансах.*** 

*Теперь посмотрим процент должников по каждой группе. Для этого добавим в таблицу новый столбец debtors.*

In [64]:
debt_family_status_grouped['debtors'] = debt_family_status_grouped['presence_of_debts']/debt_family_status_grouped['total'] * 100
print(debt_family_status_grouped)

           family_status  no_debt  presence_of_debts  total   debtors
0  Не женат / не замужем     2523                273   2796  9.763948
1              в разводе     1105                 84   1189  7.064760
2         вдовец / вдова      888                 63    951  6.624606
3       гражданский брак     3749                385   4134  9.313014
4        женат / замужем    11334                927  12261  7.560558


*Теперь добавим сводную debt_family_status_pivot таблицу указав в ней количество клиентов в каждой группе, количество должников и долю должников в процентном соотношении и отсортируем по уменьшению процента задолженности*

In [66]:
debt_family_status_pivot = data.pivot_table(index='family_status', values='debt', aggfunc=['mean', 'sum', 'count'])
debt_family_status_pivot.columns = ['debtors','presence_of_debts', 'total']
debt_family_status_pivot['debtors'] = debt_family_status_pivot['debtors']*100
print(debt_family_status_pivot)

                        debtors  presence_of_debts  total
family_status                                            
Не женат / не замужем  9.763948                273   2796
в разводе              7.064760                 84   1189
вдовец / вдова         6.624606                 63    951
гражданский брак       9.313014                385   4134
женат / замужем        7.560558                927  12261


**Вывод:** 
* Люди состоящие в зарегистрированных или не зарегистрированных отношениях берут кредиты намного чаще чем остальные группы.
* Самый высокий процент возврата имеет группа со статусом 'вдова/вдовец'. Вероятно, что данная группа более возрастная и при этом финансово стабильная. 
* Исходя из полученных данных можно предположить, что люди которые не имели официальных отношений (группы "гражданский брак" , "не женат/не замужем") в меньшей степени финансово ответственны, так как имеют наименьший процент возврата. 
* Так как у всех групп показатель выплаты без задолженностей выше 90%, прямой взаимосвязи между семейным положением и возвратом кредита в срок данные не показывают. 

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

*Ранее мы присвоили каждому уровню дохода категорию и добавили ее в столбец total_income_category:*
* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

*Сгруппируем клиентов по семеному положению и наличию\отсутствию задолженностей.*

In [71]:
print(data.groupby('total_income_category')['debt'].value_counts())

total_income_category  debt
A                      0          23
                       1           2
B                      0        4660
                       1         354
C                      0       14568
                       1        1353
D                      0         328
                       1          21
E                      0          20
                       1           2
Name: count, dtype: int64


*Посмотрим количество клиентов в каждой группе*

In [73]:
total = data.groupby('total_income_category').agg({'debt':'count'})
total.reset_index(inplace=True)
print(total)

  total_income_category   debt
0                     A     25
1                     B   5014
2                     C  15921
3                     D    349
4                     E     22


*Теперь создадим таблицу в переменной debt_income, с которой будем работать в дальнейшем*

In [75]:
debt_income = data.pivot_table(index='total_income_category', columns='debt', aggfunc={'debt': 'count'})
debt_income.columns = ['no_debt', 'presence_of_debts']
print(debt_income)

                       no_debt  presence_of_debts
total_income_category                            
A                           23                  2
B                         4660                354
C                        14568               1353
D                          328                 21
E                           20                  2


In [76]:
debt_income_grouped = pd.merge(debt_income, total, on='total_income_category')
debt_income_grouped.columns = ['total_income_category','no_debt', 'presence_of_debts','total']
print(debt_income_grouped)

  total_income_category  no_debt  presence_of_debts  total
0                     A       23                  2     25
1                     B     4660                354   5014
2                     C    14568               1353  15921
3                     D      328                 21    349
4                     E       20                  2     22


Чаще всего, обращаются за кредитом категория C, клиенты с доходом от 50 001 до 200 000. Эта группа в 3 раза больше чем сумма клиентов остальных групп.

*Отразим процент должеников по каждой группе. Для этого добавим в таблицу новый столбец debtors.*

In [79]:
debt_income_grouped['debtors'] = debt_income_grouped['presence_of_debts']/(debt_income_grouped['total']) * 100
print(debt_income_grouped)

  total_income_category  no_debt  presence_of_debts  total   debtors
0                     A       23                  2     25  8.000000
1                     B     4660                354   5014  7.060231
2                     C    14568               1353  15921  8.498210
3                     D      328                 21    349  6.017192
4                     E       20                  2     22  9.090909


*Теперь добавим сводную таблицу указав в ней количество клиентов в каждой группе, количество должников и долю должников в процентном соотношении. И отсортируем по уменьшению процента задолженности.*

In [81]:
debt_income_grouped_pivot = data.pivot_table(index='total_income_category', values='debt', aggfunc=['mean', 'sum', 'count'])
debt_income_grouped_pivot.columns = ['debtors','presence_of_debts', 'total']
debt_income_grouped_pivot['debtors'] = debt_income_grouped_pivot['debtors']*100
print(debt_income_grouped_pivot)

                        debtors  presence_of_debts  total
total_income_category                                    
A                      8.000000                  2     25
B                      7.060231                354   5014
C                      8.498210               1353  15921
D                      6.017192                 21    349
E                      9.090909                  2     22


**Вывод:** 
* Люди с категорией доходов С и В составляют 98% от общего числа заемщиков. Если сравнивать 2 эти группы процент возврата выше именно у категории С. Вероятно что люди имющие стабильный средний заработок внимателеней относятся к финансовым обязательствам нежели клиенты с заработком выше среднего. Это также подтверждает сравнение категории С и A, не смотря на самый высокий доход в категории А процент возврата выше все же у категории C.
* Делая вывод о влиянии дохода на возврат кредита в срок, наиболее ответственными заемщиками будут люди со средним уровнем дохода.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

*Сгруппируем клиентов по целям кредита и наличию\отсутствию задолженностей.*

In [85]:
print(data.groupby('purpose_category')['debt'].value_counts())

purpose_category          debt
операции с автомобилем    0       3879
                          1        400
операции с недвижимостью  0       9971
                          1        780
получение образования     0       3619
                          1        369
проведение свадьбы        0       2130
                          1        183
Name: count, dtype: int64


*Посчитаем количество клиентов для каждой группы.*

In [87]:
total = data.groupby('purpose_category').agg({'debt':'count'})
total.reset_index(inplace=True)
print(total)

           purpose_category   debt
0    операции с автомобилем   4279
1  операции с недвижимостью  10751
2     получение образования   3988
3        проведение свадьбы   2313


*Для дальнейших рассчетов создадим таблицу в переменной debt_purpose на основании исходного датафрейма.*

In [89]:
debt_purpose = data.pivot_table(index='purpose_category', columns='debt', aggfunc={'debt': 'count'})
debt_purpose.columns = ['no_debt', 'presence_of_debts']
print(debt_purpose)

                          no_debt  presence_of_debts
purpose_category                                    
операции с автомобилем       3879                400
операции с недвижимостью     9971                780
получение образования        3619                369
проведение свадьбы           2130                183


*Используем метод merge и свожу данные из 2х таблиц total и debt_purpose в новой переменной debt_purpose_grouped*

In [91]:
debt_purpose_grouped = pd.merge(debt_purpose, total, on='purpose_category')
debt_purpose_grouped.columns = ['purpose_category','no_debt', 'presence_of_debts','total']
print(debt_purpose_grouped)

           purpose_category  no_debt  presence_of_debts  total
0    операции с автомобилем     3879                400   4279
1  операции с недвижимостью     9971                780  10751
2     получение образования     3619                369   3988
3        проведение свадьбы     2130                183   2313


*Теперь посмотрим процент должников по каждой группе. Для этого добавим в таблицу новый столбец debtors.*

In [93]:
debt_purpose_grouped['debtors'] = debt_purpose_grouped['presence_of_debts']/debt_purpose_grouped['total'] * 100
print(debt_purpose_grouped)

           purpose_category  no_debt  presence_of_debts  total   debtors
0    операции с автомобилем     3879                400   4279  9.347978
1  операции с недвижимостью     9971                780  10751  7.255139
2     получение образования     3619                369   3988  9.252758
3        проведение свадьбы     2130                183   2313  7.911803


*Упростим таблицу и оставим в ней только цель кредита, количество клиентов в группе, количество должников и процент должников, сохранив результат в новую таблицу debt_purpose_grouped_pivot и отсортируем в порядке уменьшения процента возврата кредита .*

In [95]:
debt_purpose_grouped_pivot = data.pivot_table(index='purpose_category', values='debt', aggfunc=['mean', 'sum', 'count'])
debt_purpose_grouped_pivot.columns = ['debtors','presence_of_debts', 'total']
debt_purpose_grouped_pivot['debtors'] = debt_purpose_grouped_pivot['debtors']*100
print(debt_purpose_grouped_pivot)

                           debtors  presence_of_debts  total
purpose_category                                            
операции с автомобилем    9.347978                400   4279
операции с недвижимостью  7.255139                780  10751
получение образования     9.252758                369   3988
проведение свадьбы        7.911803                183   2313


**Вывод:**
* Чаще всего клиенты обращаются за кредитом на операции с недвижимостью.
* Реже всего требуется кредит на проведение свадьбы, но вместе с тем % возврата по данной категории самый высокий. Но и сумма кредита явно ниже чем на операции с недвижимостью.
* В категории "получение образования" относительно предыдущих категорий более низкий процент. Возможно, это связано с тем, что после получения образования требуется время чтобы найти новую работу по специальности и погасить задолженность. 
* "Операции с автомобилем" в данной категории самый низкий процент возврата в срок.

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:*   

В изначальном отчете были пропуски в столбцах total_income и days_employed. В нашем случае предоставление справки о доходах  и трудовом стаже обязательный критерий одобрения кредита, поэтому высока вероятность именно технической ошибки при выгрузке данных или сбоем в банковской системе. 
На техничесую ошибку или сбой также указывают отрицательные значения в данных о трудовом стаже.
Предложение что пропуски обусловлены отсуствием данных маловероятно, так как банк может запрашивать информацию о трудовом стаже и доходе напрямую из Пенсионного фонда даже если клиентом они поданы не были.

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:* 
* заполнение пропусков медианным значением позволяет более точно выявить средней показатель для всей выборки, если в ней присутствуют аномальные значения(слишком большие или слишком маленькие);
* медианное значение легко вычисляется и позволяет быстро заполнить пропуски в данных.

### Шаг 4: общий вывод.

Перед непосредственным исследованием полученных данных, необходимо привести их к корректному виду - это ПРОЦЕСС ПРЕДОБРАБОТКИ данных. 
На этом этапе были выпонены следующие шаги:  
* ***Удаление пропусков.*** Пропущенные значения присутствовали в данных о доходе и трудовом стаже. Для заполнения пропусков в информации, использовали средний показатель заработной платы и трудового стажа у клиентов с одним и тем же видом дохода, отразив медианное значение в пропущенных ячейках. 
* ***Обработка аномальных значений.*** Аномалии наблюдаются данных о трудовом стаже - присутствуют отрицательные значения, которые мы приводим к положительному значению - здесь явно техническая ошибка при выгрузке данных из системы. В данных о количестве детей мы также убрали из выборки клиентов у которых -1 и 20 детей, так как они выбиваются из общей выборки и по численности не значительны, что позволяет удалить информацию об этих клиентах без ущерба для итоговых выводов и оставить значения в данном столбце от 0 до 5.  
* ***Изменение типов данных.*** На этом этапе были изменены значения дохода клиентов с вещественных на целочисленные, то есть убраны знаки после запятой для удобства расчетов и визуального восприятия.  
* ***Обработка дубликатов.*** В столбце с информацие об образовании были замечены неявные дубликаты, то есть данные с одинаковым по смыслу значениями, но написанные разным регистром. Приведение этих показателей к общему написанию дает возможность проверить всю таблицу на предмет строк-дубликатов. Таким образом найдены 71 строка-дубликат и удалены из отчета.
* ***Категоризация данных.*** Создали категории по уровню дохода клиентов и получены 5 групп:  
1. 0–30000 — 'E'
2. 30001–50000 — 'D'
3. 50001–200000 — 'C' 
4. 200001–1000000 — 'B' 
5. 1000001 и выше — 'A'  

Таким же образом создали категории исходя из целей кредита и получили 4 категории: 
1. операции с автомобилем
2. операции с недвижимостью
3. проведение свадьбы
4. получение образования

ИССЛЕДОВАТЕЛЬСКАЯ ЧАСТЬ. 
Задача которую нам необходимо решить: найти взаимосвязь между различными факторами и возвратом кредита в срок. Поэтому разбили исследование на несколько блоков рассматривая влияние каждого фактора в отдельности.
* ***Влияние количества детей на возврат кредита в срок***. Стоит отметить, что выборка клиентов в группах очень разная, поэтому опираться стоит на процент должников в каждой группе:  
1. Бездетные клиенты. Общая численность группы 14091 человек. Процент должников 7.5%
2. 1 ребёнок. Общая численность группы 4808 человек. Процент должников 9.2%
3. 2 ребёнка. Общая численность группы 2052 человек. Процент должников 9.4%
4. 3 ребёнка. Общая численность группы 330 человек. Процент должников 8.1%
5. 4 ребёнка. Общая численность группы 41 человек. Процент должников 9.7%
6. 5 детей. Общая численность группы 9 человек. Процент должников 0%

Во всех группах более 90% клиентов не имеют задолженностей. Это говорит о том, что независимо от количества детей клиенты хорошо справляются с долговыми обязательствами. Не смотря на то, что группа с 5 детьми имеет 0% должников, ее численность слишком мала, чтобы делать финальные выводы о наибольшей финансовой ответственности.  
Группа без детей представленна в досточном объеме и позволяет сделать вывод в сравнении с остальными 4-ми группами, что люди без дополнительных финансовых обязательств лучше справляются с выплатами.

* ***Влияние семейного положения на возврат кредита в срок.*** В данных для исследования вывили 5 групп с семейным положением:  
1. женат/замужем. Численность группы 12261. Процент должников 7.5%.
2. гражданский брак. Численность группы 4134. Процент должников 9.3%.
3. не женат/не замужем. Численность группы 2796. Процент должников 9.7%.
4. в разводе. Численность группы 1189. Процент должников 7%.
5. вдова/вдовец. Численность группы 951. Процент должников 6.6%.

Данные говорят, что люди состоящие в зарегистрированных или не зарегистрированных отношениях берут кредиты намного чаще чем остальные группы.
Наименьший процент должникв в группе со статусом 'вдова/вдовец'. Вероятно, что данная группа более возрастная и при этом финансово стабильная. 
Исходя из полученных данных можно предположить, что люди которые не имели официальных отношений (группы "гражданский брак" , "не женат/не замужем") в меньшей степени финансово ответственны, так как имеют наименьший процент возврата. 

* ***Влияние уровня дохода на возврат кредита в срок.*** Для исследования данного фактора была проведена группировка клиентов по уровню дохода и получены 5 категорий:  
1. A - доход от 1 000 001 и выше. Численность группы 25 человек. Процент должников 8%.
2. B - доход от 200 001 до 1 000 000. Численность группы 5014 человек. Процент должников 7%.
3. С - доход от 50001 до 200 000. Численность группы 15921 человек. Процент должников 8.4%.
4. D - доход от 30 001 до 50 000. Численность группы 349 человек. Процент должников 6%.
5. E - доход от 0 до 30 000. Численность группы 22 человека. Процент должников 9%.

Люди с категорией доходов С и В (от 50 001 до 1 000 000) составляют 98% от общего числа заемщиков. Если сравнивать 2 эти группы процент возврата выше именно у категории с более низким доходом, то есть категории С. Это может указывать на то, что люди со средним заработком внимательней относятся к финансовым обязательствам, нежели клиенты с заработком выше среднего. Это также подтверждает сравнение категории С и A, не смотря на самый высокий доход в категории А процент возврата выше все же у категории C. Наиболее ответственными заемщиками будут люди со средним уровнем дохода. Отметим, что не смотря на 0% должников в группе с доходом E, выборка мала - от общего количества заемщиков составляет 0.1%.На такой объем данных не рекомендую опираться при составлении прогнозов.  

* ***Влияние целей кредита на возврат в срок.*** Категоризировав все цели клиентов и объединив в группы мы получили следюущие данные:
1. На операции с автомобилем, кредит взяли 4279 человек. Процент должников 9.3%
2. На получение образования, кредит взяли 3988 человек. Процент должников 9.2%
3. На операции с недвижимость, кредит взяли 10751 человек. Процент должников 7.2%
4. На проведение свадьбы, кредит взяли 2313 человек. Процент должников 3.5%

Исходя из объемов сформированных категорий по целям кредита можно увернно сказать, что наиболее частая цель кредита - недвижимость.Реже всего требуется кредит на проведение свадьбы, но вместе с тем % возврата по данной категории самый высокий. Но и сумма кредита явно ниже чем на операции с недвижимостью.  
На втором месте у клиентов "Операции с автомобилем" в данной категории самый большой процент задолженностей. Стоит внимательней отнестись к этой категории клиентов и проанализировать с какой целью они берут кредит на автомобиль. Здесь возможно как приобретение автомобиля в качестве инструмента для работы или же смена авто для личного пользования. Вероятно, что именно цель операции с автомобилем будет влиять на погашения задолженности в срок.
В категории "получение образования" также один из самых низких процентов возврата. Возможно, это связано с тем, что после получения образования требуется время на поиск работы по специальности для погашения долга.

***ОБЩИЙ ВЫВОД.***
Полученные данные свидетельствуют о том, что взаимосвязь между рассматриваемыми факторами и возвратами кредита в срок есть, но требует более углубленного изучения. Клиенты с более стабильным семейным положением и ответственным финансовым планированием, вероятно, будут более внимательны к выпонению своих обязательств. Однако, уровень дохода и количество зависимых также играют важную роль. Рекомендую продолжить исследование этих взаимосвязей, получив более детальную информацию о заемщаках, для формирования кредитной политики банка.