## Обзор данных

In [1]:
import pandas as pd #вызов библиотеки

In [3]:
data #просмотр датафрейма

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [4]:
data.info() #вызов информации по датафрейму

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Всего 21525 строк. Три типа данных, объект(`object`), целое число(`int64`), дробное число(`float64`). 
Типы данных совпадают с их фактическим видом.

**Столбцы:**
    
`children` — количество детей в семье

`days_employed` — общий трудовой стаж в днях

`dob_years` — возраст клиента в годах

`education` — уровень образования клиента

`education_id` — идентификатор уровня образования

`family_status` — семейное положение

`family_status_id` — идентификатор семейного положения

`gender` — пол клиента

`income_type` — тип занятости

`debt` — имел ли задолженность по возврату кредитов

`total_income` — ежемесячный доход

`purpose` — цель получения кредита

##  Предобработка данных
### Заполнение пропусков

In [5]:
data.isna().sum() # нахождения колличества пропусков, по столбцам

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски присутствуют в столбце: days_employed, total_income. 

Они занимают 10% от значений столбца, это значительная часть данных. Лучше их не удалять а попробовать подставить значения.

In [6]:
missing_values = data[['days_employed','total_income']] #соединение столбцов для анализа

In [7]:
display(missing_values.head(14)) #сопоставление данных двух столбцов

Unnamed: 0,days_employed,total_income
0,-8437.673028,253875.639453
1,-4024.803754,112080.014102
2,-5623.42261,145885.952297
3,-4124.747207,267628.550329
4,340266.072047,158616.07787
5,-926.185831,255763.565419
6,-2879.202052,240525.97192
7,-152.779569,135823.934197
8,-6929.865299,95856.832424
9,-2188.756445,144425.938277


На основе этого результата можно сделать предположение, что отсутствующие значения не хаотичны, их недостает в обоих столбцах одновременно. Скорее всего из-за отсутствия информации по определенному клиенту.

Заполнение пропусков производится по средством нахождения медианы. Это лучший способ для нахождения "среднего" значения количественных переменных, так как значения могут сильно отличатся друг от друга.

In [8]:
employed_median = data['days_employed'].median() #вызов медианы по столбцу 'days_employed'

In [9]:
income_median = data['total_income'].median() #вызов медианы по столбцу 'total_income'

In [10]:
data['days_employed'] = data['days_employed'].fillna(employed_median) 
#замена отсутствующих значений в столбце 'days_employed'

In [11]:
data['total_income'] = data['total_income'].fillna(income_median) 
#замена отсутствующих значений в столбце 'total_income'

In [12]:
data.isna().sum() # проверка колличества пропусков, по столбцам

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Проверка данных на аномалии и исправления.

При заполнении пропусков, была замеченна аномалия данных в столбце 'days_employed'. Он должен был отражать общий трудовой стаж в днях, но имеет отрицательные числа. Так же присутствуют полоджительные числа,но они имеют слишком большое значение. По этому, положительные числа скорее всего отображены в часах.

Вероятно, изначально данные вводились по какой-то определенной логике, но при переводе в таблицу, эта логика перестала прослеживатся.

In [13]:
data['days_employed'].head(10) #просмотр таблицы с аномалией

0     -8437.673028
1     -4024.803754
2     -5623.422610
3     -4124.747207
4    340266.072047
5      -926.185831
6     -2879.202052
7      -152.779569
8     -6929.865299
9     -2188.756445
Name: days_employed, dtype: float64

Спорные данные присутствуют в сторбце 'children'

In [14]:
data['children'].value_counts() #подсчет уникальных значений в столбце 'children'

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

В семье не может быть отрицательного колличества дитей, а в данном датафрейме у 47 клиентов -1 ребенок(скорее всего здесь ошибка и минуса быть не должно). Так же у 76 клиентов, по 20 детей, что тоже сомнительно (скорее всего должно было быть 2 ребенка).

In [15]:
(76+47)*100/21525 #подсчет процентной состовляющей сомнительных данных

0.5714285714285714

Так как эти клиенты составляют менее 1% от всех, они не повлияют на исходный результат, их можно удалить.


In [16]:
data = data.loc[(data['children'] != -1)&(data['children'] != 20)] #удаляем строки со значением -1

In [17]:
data['children'].value_counts() #проверка изменений

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

Так же спорные данные присутствуют в столбце 'gender'.

In [18]:
data['gender'].value_counts() #подсчет уникальных значений в столбце 'gender'

F      14154
M       7247
XNA        1
Name: gender, dtype: int64

Так как спорное значение одно, его тоже можно удалить не навредив датасету.

In [19]:
data = data.loc[(data['gender'] != 'XNA')] #удаляем строки со значением XNA

In [20]:
data['gender'].value_counts() #проверка изменений

F    14154
M     7247
Name: gender, dtype: int64

In [21]:
data = data.reset_index(drop=True) #присвоение новых индексов

In [22]:
data.info() #проверка изменений в датафрейме

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21401 entries, 0 to 21400
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21401 non-null  int64  
 1   days_employed     21401 non-null  float64
 2   dob_years         21401 non-null  int64  
 3   education         21401 non-null  object 
 4   education_id      21401 non-null  int64  
 5   family_status     21401 non-null  object 
 6   family_status_id  21401 non-null  int64  
 7   gender            21401 non-null  object 
 8   income_type       21401 non-null  object 
 9   debt              21401 non-null  int64  
 10  total_income      21401 non-null  float64
 11  purpose           21401 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Изменение типов данных.

Для столбца 'total_income' - ежемесячный доход, не обязательно иметь числа после запятой. Так как будут информативны и целочисленные значения.

In [23]:
data['total_income'] = data['total_income'].astype('int64') #изменение типа данных стобца на целочисленное значение

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Чтобы оптимизировать таблицу, можно соединить несколько столбцов: education + education_id; family_status + family_status_id. Оставив в изначальной таблице только education_id и family_status_id.

In [24]:
education_id = data[['education','education_id']] #объединяем столбцы education и education_id в новый датафрейм

In [25]:
family_status_id = data[['family_status','family_status_id']] 
#объединяем столбцы family_status и family_status_id в новый датафрейм

In [26]:
data.pop('education') # удаляем лишний столбец education

0         высшее
1        среднее
2        Среднее
3        среднее
4        среднее
          ...   
21396    среднее
21397    среднее
21398    среднее
21399    среднее
21400    среднее
Name: education, Length: 21401, dtype: object

In [27]:
data.pop('family_status') # удаляем лишний столбец family_status

0         женат / замужем
1         женат / замужем
2         женат / замужем
3         женат / замужем
4        гражданский брак
               ...       
21396    гражданский брак
21397     женат / замужем
21398    гражданский брак
21399     женат / замужем
21400     женат / замужем
Name: family_status, Length: 21401, dtype: object

### Категоризация дохода.

Что бы было легче читать данные, столбец дохода котигоризируем.

In [28]:
def total_income_category(income): #создание функции котигоризирующей доход
    if income <= 30000:
        return 'E'
    if 30001 <= income <= 50000:
        return 'D'
    if 50001 <= income <= 200000:
        return 'C'
    if 200001 <= income <= 1000000:
        return 'B'
    if 1000001 <= income:
        return 'A'

In [29]:
data['total_income_category'] = data['total_income'].apply(total_income_category) 
#запись получившихся котигорий в новый столбец

In [30]:
data['total_income_category'].value_counts() #проверка получившихся значенний

C    15993
B     5012
D      349
A       25
E       22
Name: total_income_category, dtype: int64

### Категоризация целей кредита.

Так же, для упрощениея котигоризируем цели кредита.

In [31]:
data['purpose'].value_counts()#просмотр уникальных значений в столбце

свадьба                                   796
на проведение свадьбы                     772
сыграть свадьбу                           769
операции с недвижимостью                  673
покупка коммерческой недвижимости         661
покупка жилья для сдачи                   651
операции с жильем                         648
операции с коммерческой недвижимостью     646
жилье                                     642
покупка жилья                             641
покупка жилья для семьи                   640
недвижимость                              632
строительство собственной недвижимости    628
операции со своей недвижимостью           626
строительство жилой недвижимости          622
строительство недвижимости                620
покупка своего жилья                      619
покупка недвижимости                      618
ремонт жилью                              609
покупка жилой недвижимости                603
на покупку своего автомобиля              504
заняться высшим образованием      

In [32]:
def purpose_category(purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'
    elif ('жил' in purpose) or ('недв' in purpose):
        return 'операции с недвижимостью'
    elif 'сва' in purpose:
        return 'проведение свадьбы'
    elif 'обр' in purpose:
        return 'получение образования'
    else:
        return '...'

In [33]:
data['purpose_category'] = data['purpose'].apply(purpose_category) #запись получившихся котигорий в новый столбец

In [34]:
data['purpose_category'].value_counts()  #проверка получившихся значенний

операции с недвижимостью    10779
операции с автомобилем       4288
получение образования        3997
проведение свадьбы           2337
Name: purpose_category, dtype: int64

### Удаление дубликатов.

In [35]:
data.duplicated().sum() #поиск явных дубликатов с помощью duplicated()

71

In [36]:
data = data.drop_duplicates().reset_index() #удаление явных дубликатов с обновлением индексов

In [37]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21330 entries, 0 to 21329
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   index                  21330 non-null  int64  
 1   children               21330 non-null  int64  
 2   days_employed          21330 non-null  float64
 3   dob_years              21330 non-null  int64  
 4   education_id           21330 non-null  int64  
 5   family_status_id       21330 non-null  int64  
 6   gender                 21330 non-null  object 
 7   income_type            21330 non-null  object 
 8   debt                   21330 non-null  int64  
 9   total_income           21330 non-null  int64  
 10  purpose                21330 non-null  object 
 11  total_income_category  21330 non-null  object 
 12  purpose_category       21330 non-null  object 
dtypes: float64(1), int64(7), object(5)
memory usage: 2.1+ MB


### Ответы на вопросы.

#### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [38]:
data.pivot_table(index='children',values='debt', aggfunc='mean') #построение сводной таблицы

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.075444
1,0.092346
2,0.094542
3,0.081818
4,0.097561
5,0.0


In [39]:
def children_group(row): #создание функции распределяющей показатели
    children = row['children']
    debt = row['debt']
    
    if children == 0:
        if debt == 0:
            return 'возвращен'
    if children == 0:
        if debt == 1:
            return 'не возвращен, нет детей'
    if children == 1:
        if debt == 0:
            return 'возвращен'
    if children == 1:
        if debt == 1:
            return 'не возвращен, один ребенок'
    if children == 2:
        if debt == 0:
            return 'возвращен'
    if children == 2:
        if debt == 1:
            return 'не возвращен, два ребенка'
    if children >= 3:
        if debt == 0:
            return 'возвращен'
    if children >= 3:
        if debt == 1:
            return 'не возвращен, многодетная семья'

In [40]:
data['children_group'] = data.apply(children_group, axis=1) #запись получившихся значений в новый столбец

In [41]:
data['children'].value_counts() #вызов колличества существующих значений

0    14090
1     4808
2     2052
3      330
4       41
5        9
Name: children, dtype: int64

In [42]:
data['children_group'].value_counts() #подсчет получившихся значений

возвращен                          19598
не возвращен, нет детей             1063
не возвращен, один ребенок           444
не возвращен, два ребенка            194
не возвращен, многодетная семья       31
Name: children_group, dtype: int64

In [43]:
a = 1063*100/14090 #высщитываем процент возвращения кредита клиентов без детей
b = 444*100/4808 #высщитываем процент возвращения кредита клиентов с одним ребенком
c = 194*100/2052 #высщитываем процент возвращения кредита клиентов с двумя детьми
d = 31*100/380 #высщитываем процент возвращения кредита многодетных клиентов 

In [44]:
display(a,b,c,d)

7.544357700496806

9.234608985024959

9.454191033138402

8.157894736842104

**Вывод 1:**

Чаще всего, **не возвращают** кредит в срок, клиенты с двумя детьми. **В срок** отдают чаще всего клиенты без детей.

#### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [45]:
data.pivot_table(index='family_status_id',values='debt', aggfunc='mean') #построение сводной таблицы

Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
0,0.075606
1,0.093153
2,0.066246
3,0.070648
4,0.097639


In [46]:
def family_status_group(row): #создание функции распределяющей показатели
    family_status = row['family_status_id']
    debt = row['debt']
    
    if family_status == 0:
        if debt == 0:
            return 'возвращен'
    if family_status == 0:
        if debt == 1:
            return 'не возвращен, женат/замужем'
    if family_status == 1:
        if debt == 0:
            return 'возвращен'
    if family_status == 1:
        if debt == 1:
            return 'не возвращен, гражданский брак'
    if family_status == 2:
        if debt == 0:
            return 'возвращен'
    if family_status == 2:
        if debt == 1:
            return 'не возвращен, вдовец/вдова'
    if family_status == 3:
        if debt == 0:
            return 'возвращен'
    if family_status == 3:
        if debt == 1:
            return 'не возвращен, в разводе'
    if family_status == 4:
        if debt == 0:
            return 'возвращен'
    if family_status == 4:
        if debt == 1:
            return 'не возвращен, не женат/ не замужем'
        

In [47]:
data['family_status_group'] = data.apply(family_status_group, axis=1) #запись получившихся значений в новый столбец

In [48]:
data['family_status_id'].value_counts() #вызов колличества существующих значений

0    12261
1     4133
4     2796
3     1189
2      951
Name: family_status_id, dtype: int64

In [49]:
data['family_status_group'].value_counts() #подсчет получившихся значений

возвращен                             19598
не возвращен, женат/замужем             927
не возвращен, гражданский брак          385
не возвращен, не женат/ не замужем      273
не возвращен, в разводе                  84
не возвращен, вдовец/вдова               63
Name: family_status_group, dtype: int64

In [50]:
a = 927*100/12261 #высщитываем процент возвращения кредита женатых/замужних клиентов
b = 385*100/4133 #высщитываем процент возвращения кредита клиентов в гражданском браке
c = 273*100/2796 #высщитываем процент возвращения кредита не женатых/ не замужних клиентов
d = 84*100/1189 #высщитываем процент возвращения кредита клиентов в разводе
e = 63*100/951#высщитываем процент возвращения кредита клиентов вдовцов/вдов

In [51]:
display(a,b,c,d,e)

7.560557866405676

9.31526736027099

9.763948497854077

7.064760302775442

6.624605678233438

**Вывод 2:**

Чаще всего, кредит **возвращают** в срок, вдовецы/вдовы. Чаще всего **не возвращают** в срок не женатые/ не замужние и клиенты в гражданском браке.

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [52]:
data.pivot_table(index='total_income_category',values='debt', aggfunc='mean') #построение сводной таблицы

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
A,0.08
B,0.07063
C,0.084977
D,0.060172
E,0.090909


In [53]:
def income_category_group(row): #создание функции распределяющей показатели
    income_category = row['total_income_category']
    debt = row['debt']
    
    if income_category == 'E':
        if debt == 0:
            return 'возвращен'
    if income_category == 'E':
        if debt == 1:
            return 'не возвращен, категория E'
    if income_category == 'D':
        if debt == 0:
            return 'возвращен'
    if income_category == 'D':
        if debt == 1:
            return 'не возвращен, категория D'
    if income_category == 'C':
        if debt == 0:
            return 'возвращен'
    if income_category == 'C':
        if debt == 1:
            return 'не возвращен, категория C'
    if income_category == 'B':
        if debt == 0:
            return 'возвращен'
    if income_category == 'B':
        if debt == 1:
            return 'не возвращен, категория B'
    if income_category == 'A':
        if debt == 0:
            return 'возвращен'
    if income_category == 'A':
        if debt == 1:
            return 'не возвращен, категория A'

In [54]:
data['income_category_group'] = data.apply(income_category_group, axis=1) #запись получившихся значений в новый столбец

In [55]:
data['total_income_category'].value_counts() #вызов колличества существующих значений

C    15922
B     5012
D      349
A       25
E       22
Name: total_income_category, dtype: int64

In [56]:
data['income_category_group'].value_counts() #подсчет получившихся значений

возвращен                    19598
не возвращен, категория C     1353
не возвращен, категория B      354
не возвращен, категория D       21
не возвращен, категория A        2
не возвращен, категория E        2
Name: income_category_group, dtype: int64

In [57]:
a = 1353*100/15992 #высщитываем процент возвращения кредита от общего колличества по категории С
b = 354*100/5012 #высщитываем процент возвращения кредита от общего колличества по категории В
c = 21*100/349 #высщитываем процент возвращения кредита от общего колличества по категории D
d = 2*100/25 #высщитываем процент возвращения кредита от общего колличества по категории E
e = 2*100/22 #высщитываем процент возвращения кредита от общего колличества по категории A

In [58]:
display(a,b,c,d,e)

8.46048024012006

7.063048683160415

6.017191977077364

8.0

9.090909090909092

**Вывод 3:**

 Чаще всего, кредит **не возвращают** в срок клиенты с доходом категории Е (менее 30000). Чаще всего **отдают** кредиты в срок клиенты категории D (30000-50000) и B (200000 - 1000000).

#### Как разные цели кредита влияют на его возврат в срок?

In [59]:
data.pivot_table(index='purpose_category',values='debt', aggfunc='mean') #построение сводной таблицы

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с автомобилем,0.09348
операции с недвижимостью,0.072558
получение образования,0.092528
проведение свадьбы,0.079118


In [60]:
def purpose_category_group(row): #создание функции распределяющей показатели
    purpose_category = row['purpose_category']
    debt = row['debt']
    
    if purpose_category == 'операции с автомобилем':
        if debt == 0:
            return 'возвращен'
    if purpose_category == 'операции с автомобилем':
        if debt == 1:
            return 'не возвращен, операции с автомобилем'
    if purpose_category == 'операции с недвижимостью':
        if debt == 0:
            return 'возвращен'
    if purpose_category == 'операции с недвижимостью':
        if debt == 1:
            return 'не возвращен, операции с недвижимостью'
    if purpose_category == 'проведение свадьбы':
        if debt == 0:
            return 'возвращен'
    if purpose_category == 'проведение свадьбы':
        if debt == 1:
            return 'не возвращен, проведение свадьбы'
    if purpose_category == 'получение образования':
        if debt == 0:
            return 'возвращен'
    if purpose_category == 'получение образования':
        if debt == 1:
            return 'не возвращен, получение образования'

In [61]:
data['purpose_category_group'] = data.apply(purpose_category_group, axis=1) 
#запись получившихся значений в новый столбец

In [62]:
data['purpose_category'].value_counts() #вызов колличества существующих значений

операции с недвижимостью    10750
операции с автомобилем       4279
получение образования        3988
проведение свадьбы           2313
Name: purpose_category, dtype: int64

In [63]:
data['purpose_category_group'].value_counts() #подсчет получившихся значений

возвращен                                 19598
не возвращен, операции с недвижимостью      780
не возвращен, операции с автомобилем        400
не возвращен, получение образования         369
не возвращен, проведение свадьбы            183
Name: purpose_category_group, dtype: int64

In [64]:
a = 782*100/10750 #высщитываем процент возвращения кредита от общего колличества по операции с недвижимостью
b = 403*100/4279 #высщитываем процент возвращения кредита от общего колличества по операции с автомобилем
c = 370*100/3988 #высщитываем процент возвращения кредита от общего колличества по операции на образование
d = 186*100/2313 #высщитываем процент возвращения кредита от общего колличества по операции на свадьбу

In [65]:
display(a,b,c,d)

7.274418604651163

9.41808833839682

9.277833500501504

8.041504539559014

**Вывод 4:**

Чаще всего **не возвращают** во время кредит клиенты, бравшие его на операции с автомобилем, затем на операции с получением образования. А чаще всего **отдают** кредит во время, на опервции с недвижимостью.

## Общий вывод:

При обработке данных были выиявлены пропуски в столбце: days_employed, total_income. Они устранены методом подставления медианного значения. При заполнении пропусков, была замеченна аномалия данных в столбце 'days_employed'. Но к сожалениею с данную аномалью не получилось обработать из-за недодстатка сведений о ней. Так же Спорные данные присутствуют в сторбце 'children'. Так как эти данные занимают менее 1% от датафрейма их было решено удалить.

Был изменен тип данных для столбца 'total_income' - ежемесячный доход. Так как для него не обязательно иметь числа после запятой.

Для оптимизации таблицы, было соеденино несколько столбцов: education + education_id; family_status + family_status_id. Оставив в изначальной таблице только education_id и family_status_id.

Что бы было легче читать данные, была проведена категоризация столбца дохода и столбца целей кредита.

По итогу можно сделать вывод, что: семейное положение и количество детей клиента **влияет** на факт погашения кредита в срок.

По окнчанию проведено удаление явных дубликатов.

Так, после анализа данных можно сделать выводы что: чаще всего **возвращают** кредит во время: вдовы/вдовцы и клиенты без детей. А чаще всего **не возвращают** не женатые/ не замужниеклиенты,клиенты в гражданском браке и многодетные клиенты(**клиенты с 2 детьми**).

Так же, при дополнительном анализе, можно сказать что: чаще всего **не возвращают**  во время, клиенты бравшие кредит на операции с автомобилем и получением образования; клиенты с доходом категории Е (менее 30000). **Возвращают** в срок, клиенты бравшие кредит на опервции с недвижимостью; клиенты категории D (30000-50000) и B (200000 - 1000000)