# Учебный проект 2_Анализ оттока клиентов банка

## Содержание

* [Описание проекта](#Описание)
* [Импорт библиотек Python и загрузка данных](#Импорт)
* [Предобработка данных](#Предобработка)
    * [Категоризация данных](#Категоризация)
* [Исследовательский анализ данных](#Исследование)
* [Вывод](#Вывод)

## Описание проекта <a class = 'anchor' id = 'Описание'></a>

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Датасет имеет следующую структуру:

* **children** - количество детей в семье;
* **days_employed** — общий трудовой стаж в днях;
* **dob_years** — возраст клиента в годах;
* **education** — уровень образования клиента;
* **education_id** — идентификатор уровня образования;
* **family_status** — семейное положение;
* **family_status_id** — идентификатор семейного положения;
* **gender** — пол клиента;
* **income_type** — тип занятости;
* **debt** — имел ли задолженность по возврату кредитов;
* **total_income** — ежемесячный доход;
* **purpose** — цель получения кредита;

## Импорт библиотек Python и загрузка данных <a class = 'anchorn' id = 'Импорт'></a>

Данный блок характеризуется следующими последовательными действиями:

1. Импорт библиотек Python:
    * для манипулирования данными;
    * для визуализации данных;
2. Загрузка данных в рабочую среду Jupyter Notebook. Инициализация переменной **data** для хранения загруженного датасета;
3. Вывод на экран параметров датасета:
    * Перечень столбцов набора данных;
    * Количество строк в наборе данных;
    * Количество столбцов в наборе данных.

In [4]:
# импорт библиотек Python
import pandas as pd #для анализа табличных данных
import numpy as np #для работы с объектами линейной алгебры

import matplotlib.pyplot as plt # для визуализации данных

In [5]:
# инициализация переменной 'data' и загрузка набора данных
data = pd.read_csv('~/Desktop/YandexPraktikum_projects/datasets/data.csv')

# вывод на экран перечня столбцов датасета
for column in data.columns.to_list():
    print('*', column)

print()
print('Количество строк в наборе данных:', data.shape[0])
print('Количество столбцов в наборе данных:', data.shape[1])

* children
* days_employed
* dob_years
* education
* education_id
* family_status
* family_status_id
* gender
* income_type
* debt
* total_income
* purpose

Количество строк в наборе данных: 21525
Количество столбцов в наборе данных: 12


**Вывод:**

1. Импортированы библиотеки Python:
    * для работы с данными табличного вида;
    * для визуализации данных.
2. Инициализирована переменная **data** и загружен рабочий датасет в рабочую среду;
3. Выведены на экран следующие параметры датасета:
    * перечень названий столбцов с данными;
    * количество строк в наборе данных;
    * количество столбцов в наборе данных.

## Предобработка данных <a class = 'anchor' id = 'Предобработка'></a>

Данный блок характеризуется следующими последовательными действиями:

1. Вывод на экран структуры и основной информации о датасете;
2. Проверка набора данных на пропущенные значения. Принятие решения об исключении пропущенных значений в датасете;
3. Проверка набора даных на наличие аномальных значений:
    * Проверка на аномально большие значения;
    * Проверка на аномально малые значения;
4. Изучение датасета на наличие дубликатов (явных и неявных). Выбор метода по исключению дубликатов из набора данных;
5. Категоризация данных. Создание новых сущностей в наборе данных по значениям из других столбцов;
6. Вывод по этапу.

In [6]:
# вывод первых 20 строчек на экран
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [7]:
# вывод основной информации о датасете на экран
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [8]:
# вывод на экран количества пустых значений в наборе данных
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [9]:
# вывод на экран доли пропущенных значений от общего количества данных в наборе
print('Доля пропущенных значений в наборе данных: {:.1%}'.format(data['days_employed'].isna().sum() / data.shape[0]))

Доля пропущенных значений в наборе данных: 10.1%


**Вывод по промежуточному этапу:**

Исходя из большого процента пропущенных значений, - **10.1%** - нельзя исключить строки, содержащие пустоты, из общего набора данных. Так можно исказить первоначальную информацию, хранящуюся в датасете.

Можно заполнить пустоты медианным значением, так как оно меньше подвержено влиянию выбросов, чем среднее арифметическое.

In [10]:
# заполнение пустых ячеек медианным значением по специализированным группам
income_type_ls = list(data['income_type'].unique())

for income_type in income_type_ls:
    median_value = data[data['income_type'] == income_type]['total_income'].median()
    data.loc[(data['income_type'] == income_type) & (data['total_income'].isna()), 'total_income'] = median_value

In [11]:
# вывод на экран описательной статистики по набору данных
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,165225.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,98043.67
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,107798.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,142594.4
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,195549.9
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Вывод по промежуточному этапу:**

В наборе данных присутствуют аномальные значения:

    'children' - количество детей у клиентов: -1 и 20;
    'day_employed' - отрицательные значения трудового стажа в днях

Скорее всего значения отрицательные значения трудового стажа - техническая ошибка при заполнении базы данных. Количество отрицательных значений огромно - 3 квартиль (75-перцентиль) находится так же в отрицательной зоне. По этой причине нельзя удалить из датасета эти строки.

Принято решение заменить отрицательные значения на положительные.

In [12]:
# меняем отрицательные значения на положительные
data['days_employed'] = abs(data['days_employed'])

In [13]:
# вывод медианного значения трудового стажа в днях для каждого типа занятости
data.groupby('income_type')['days_employed'].median()

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

**Вывод по промежуточному этапу:**

У двух типов (безработные и пенсионеры) получаются аномально большие значения.

Исправление таких значений должно быть основано либо на четком понимании контекста исходного набора данных, либо на экспертном мнении руководителя, либо на вводной от заказчика.

Исправление данных значений выходит за рамки выполнения учебного проекта, поэтому данные группы останутся без изменений.

In [14]:
# вывод на экран уникальных значений столбца 'children'
data.children.unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [15]:
# вывод на экран количество строк, содержащих аномальные отрицательные значения
print('Количество клиентов с \"отрицательным\" значением детей:', data[data['children'] < 0]['children'].sum())

Количество клиентов с "отрицательным" значением детей: -47


In [16]:
# вывод на экран количество строк, содержащих аномальные положительные значения
print('Количество клиентов с аномально большим количеством детей:', data[data['children'] == 20]['children'].sum())

Количество клиентов с аномально большим количеством детей: 1520


**Вывод по промежуточному этапу:**

Количество записей с аномальными показателями количества детей ничтожно мало по сравнению с количеством строк общего набора данных.

Исходя из этого, строки, содержащие такие значения можно удалить.

In [17]:
# удаление строк с аномальными данными о количестве детей
data = data[(data['children'] >= 0) & (data['children'] < 20)]

# проверка удаления строк
data.children.unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

In [18]:
# заполнение пропусков в столбце 'days_employed' медианными значениями по каждому типу занятости
for income_type in income_type_ls:
    median_value = data[data['income_type'] == income_type]['days_employed'].median()
    data.loc[(data['income_type'] == income_type) & (data['days_employed'].isna()), 'days_employed'] = median_value

# проверка заполнения пропусков
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

In [19]:
# замена вещественного типа данных на целочисленный
data['total_income'] = data['total_income'].astype('int')

In [20]:
# понижение регистра в столбце 'education'
data['education'] = data['education'].str.lower()

# вывод на экран количество строк-дубликатов
data.duplicated().sum()

71

In [21]:
# удаление дубликатов из набора данных
data = data.drop_duplicates()

### Категоризация данных <a class = 'anchor' id = 'Категоризация'></a>

На основании приведенных диапазонов необходимо создать новый столбец, содержащий категории данных - `total_income_category`:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [22]:
# инициализация функции categorize_income()
def categorize_income(total_income):
    if total_income < 30001:
        return "E"
    elif total_income < 50001:
        return "D"
    elif total_income < 200001:
        return "C"
    elif total_income < 1000001:
        return "B"
    else:
        return "A"

In [23]:
# создание столбца 'total_income_category'
data['total_income_category'] = data['total_income'].apply(categorize_income)

На основании данных, содержащихся в столбце `purpose` (цели взятия кредита) необходимо создать новый столбец, содержащий категории данных - `purpose_category`:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

In [24]:
# перечень уникальных целей взятия кредита
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [25]:
# инициализация функции categorize_purpose()
def categorize_purpose(purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'
    elif 'обр' in purpose:
        return 'получение образования'
    elif 'свадь' in purpose:
        return 'проведение свадьбы'
    else:
        return 'операции с недвижимостью'

In [26]:
# создание столбца 'purpose_category'
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

**Вывод:**

1. На экран выведена структура набора данных, а также основная информация о датасете: идентифицированы столбцы, содержащие пропуски; изучены типы значений в столбцах;

2. Набор проверен на пропущенные значения. Пустые ячейки обнаружены в следующих столбцах:

* 'days_employed' - 2 174 значения. Что составляет **10.1%** от общего количества строк;
* 'total_income' - 2 174 значения. Что составляет **10.1%** от общего количества строк;

Среди причин появления могут быть технические ошибки при формировании набора данных, а также человеческий фактор - ошибки при внесении данных в базу, а также сам факт не указания информации клиентом о себе.

Используя вводную из описания задания, пустые значения в столбце 'total_income' были заполнены медианным значением по каждой группе клиентов.

Заполнение пустых ячеек медианным значением приоритетнее среднего по причине того, что медиана, как статистическая метрика, меньше подвержена влиянию аномальных значений.

3. Набор данных проверен на аномальные значения - обнаружены в столбцах 'children' и 'days_employed'. Аномальные значения устранены путем приведения к положительному знаку (столбец 'days_employed') и исключению строк из общего набора данных (столбец 'children');

4. Устранены явные и неявные дубликаты - путем понижения регистра и удаления строк, представляющих собой задублированные значения;

5.Выполнена категоризация данных - созданы столбцы 'total_income_category' и 'purpose_category'.

**Набор данных подготовлен к дальнейшему проведению исследования.**


## Исследовательский анализ данных

Данный блок характеризуется следующими последовательными действиями:

1. Изучение зависимости между количеством детей и возвратом кредита в срок;
2. Изучение зависимости между семейным положением и возвратом кредита в срок;
3. Изучение зависимости между уровнем дохода и возвратом кредита в срок;
4. Изучение зависимости между целями кредита и возвратом кредита в срок;
5. Вывод по итогу этапа.

In [36]:
# инициализация пользовательской функции по созданию сводной таблицы
def create_pivot(data : pd.DataFrame, feature : str):
    pivot_data = (data.groupby(feature).agg({'debt' : 'sum',
                                             'dob_years' : 'count'})
                        .rename(columns = {'debt' : 'debtors',
                                           'dob_years' : 'all_clients'}))
    pivot_data['share_debtors'] = round(pivot_data['debtors'] * 100 / pivot_data['all_clients'], 2)
    return pivot_data

In [37]:
# формирование свода по зависимости возврата кредита от количества детей
create_pivot(data, 'children')

Unnamed: 0_level_0,debtors,all_clients,share_debtors
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1063,14091,7.54
1,444,4808,9.23
2,194,2052,9.45
3,27,330,8.18
4,4,41,9.76
5,0,9,0.0


**Вывод по промежуточному этапу:**

По содержимому сводной таблицы можно сделать предварительный вывод о том, что взаимосвязи между определенным количеством детей и наличии задолженности - **нет**. Процент должников равномерно распределен по всем категориям клиентов в зависимости от определенного количества детей.

Только у одной группы - те клиенты, у кого 5 детей - нет задолженности. Данная группа не является отражением общей картины, позволяющей сделать вывод о определенной взаимосвязи долга перед банком и количестве детей.

In [38]:
# формирование свода по зависимости возврата кредита от семейного положения
create_pivot(data, 'family_status')

Unnamed: 0_level_0,debtors,all_clients,share_debtors
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,273,2796,9.76
в разводе,84,1189,7.06
вдовец / вдова,63,951,6.62
гражданский брак,385,4134,9.31
женат / замужем,927,12261,7.56


**Вывод по промежуточному этапу:**

В данной таблице уже более выраженная ситуация: больший процент должников имеют группы **"Не женат/не замужем"** и **"Гражданский брак"**.

В остальных группах низкий процент должников объясняется некоторыми правовыми и гражданскими издержками:
1. С кредиторов могут быть списаны долги перед банком, если кто-то из семейной пары скончался - этим объясняется низкий процент в группе "вдовец/вдова";
2. В группе "женат/замужем" низкий процент должников объясняется ведением общего домового хозяйства и совместным заработком, поэтому и сама потребность в кредите отпадает;
3. Вполне вероятно, что в должниках - в группе "в разводе" - оказались те люди, на которых суд наложил право выплатить кредит, взятый в семейной паре. Объяснить низкий процент в данной группе достаточно сложно - необходимо владеть более полной картиной ситуации.

In [39]:
# отдельно сформируем свод по семейному положению и уровню дохода
famIncome_pivot = (data.groupby(['family_status', 'total_income_category'])
                   .agg({'debt' : 'sum', 'dob_years' : 'count'})
                   .rename(columns = {'debt' : 'debtors', 'dob_years' : 'all_clients'}))
famIncome_pivot['share_debtors'] = round(famIncome_pivot['debtors'] * 100 / famIncome_pivot['all_clients'], 2)

famIncome_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,debtors,all_clients,share_debtors
family_status,total_income_category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Не женат / не замужем,A,0,2,0.0
Не женат / не замужем,B,62,667,9.3
Не женат / не замужем,C,209,2100,9.95
Не женат / не замужем,D,2,25,8.0
Не женат / не замужем,E,0,2,0.0
в разводе,A,0,3,0.0
в разводе,B,18,282,6.38
в разводе,C,64,887,7.22
в разводе,D,2,17,11.76
вдовец / вдова,B,9,154,5.84


**Вывод по промежуточному этапу:**

В данном разрезе уже интересно посмотреть на высокие доли должников в группах "Не женат/не замужем" и "Гражданский брак".

В этих группах семейного положения самый большой процент должников имеет **"средний" доход - категория "C"**.

Вполне вероятно, что данная категория клиентов имеет крупные цели взятия кредита, - покупка машины или квартиры - которые самостоятельно "потянуть" не смогли. А гражданский брак подразумевает, что люди все равно самостоятельно отвечают за взятые на себя обязательства.

Интересно в дальнейшем посмотреть на то, как взаимосвязаны группы доходов и цели взятия кредита.

In [40]:
# формирование свода по зависимости возврата кредита от категории дохода
create_pivot(data, 'total_income_category')

Unnamed: 0_level_0,debtors,all_clients,share_debtors
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,2,25,8.0
B,354,5014,7.06
C,1353,15921,8.5
D,21,349,6.02
E,2,22,9.09


**Вывод по промежуточному этапу:**

По содержимому сводной таблицы можно сделать предварительный вывод о том, что люди с категорией заработка **С** больше склонны оставаться в статусе "должник", чем остальные категории клиентов.

Как следует и из предыдущего исследования - вполне вероятно, что эти клиенты определили для себя дорогостоящие цели кредита, которые не смогли оплатить в срок.

In [41]:
# формирование свода по зависимости возврата кредита от цели кредита
create_pivot(data, 'purpose_category')

Unnamed: 0_level_0,debtors,all_clients,share_debtors
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,400,4279,9.35
операции с недвижимостью,780,10751,7.26
получение образования,369,3988,9.25
проведение свадьбы,183,2313,7.91


**Вывод по промежуточному этапу:**

В данном случае есть две ярко выраженные цели взятия кредита, где больше всего должников: **"Операции с автомобилем" и "Получение образования"**.

Необходимо совместить свод по целям взятия кредита и уровнем заработка клиентов, чтобы составить более полную картину.

In [42]:
# отдельно сформируем свод по цели взятия кредита и уровню дохода
purposeIncome_pivot = (data.groupby(['purpose_category', 'total_income_category'])
                   .agg({'debt' : 'sum', 'dob_years' : 'count'})
                   .rename(columns = {'debt' : 'debtors', 'dob_years' : 'all_clients'}))
purposeIncome_pivot['share_debtors'] = round(purposeIncome_pivot['debtors'] * 100 / purposeIncome_pivot['all_clients'], 2)

purposeIncome_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,debtors,all_clients,share_debtors
purpose_category,total_income_category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
операции с автомобилем,A,0,2,0.0
операции с автомобилем,B,85,1022,8.32
операции с автомобилем,C,305,3181,9.59
операции с автомобилем,D,10,72,13.89
операции с автомобилем,E,0,2,0.0
операции с недвижимостью,A,1,17,5.88
операции с недвижимостью,B,172,2558,6.72
операции с недвижимостью,C,599,7997,7.49
операции с недвижимостью,D,6,168,3.57
операции с недвижимостью,E,2,11,18.18


**Вывод по промежуточному этапу:**

Данный свод дает более полную информацию. Как и предполагалось большая часть должников в двух группах "операции с автомобилем" и "получение образования" имеют средний уровень дохода - категория "С".

Стоит так же отметить, что и в других группах, сформированных по целям взятия кредита, в должниках оказались именно клиенты со средним уровнем заработка.

In [43]:
# отдельно сформируем свод по цели взятия кредита и количеству детей
childPurpose_pivot = (data.groupby(['purpose_category', 'children'])
                   .agg({'debt' : 'sum', 'dob_years' : 'count'})
                   .rename(columns = {'debt' : 'debtors', 'dob_years' : 'all_clients'}))
childPurpose_pivot['share_debtors'] = round(childPurpose_pivot['debtors'] * 100 / childPurpose_pivot['all_clients'], 2)

childPurpose_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,debtors,all_clients,share_debtors
purpose_category,children,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
операции с автомобилем,0,243,2845,8.54
операции с автомобилем,1,103,963,10.7
операции с автомобилем,2,48,399,12.03
операции с автомобилем,3,5,60,8.33
операции с автомобилем,4,1,10,10.0
операции с автомобилем,5,0,2,0.0
операции с недвижимостью,0,476,7074,6.73
операции с недвижимостью,1,200,2447,8.17
операции с недвижимостью,2,88,1035,8.5
операции с недвижимостью,3,13,169,7.69


**Вывод по промежуточному этапу:**

Изучая данный свод, можно сделать вывод о том, что большая часть должников в категориях "получение образования" и "операции с автомобилем" имеет детей и, притом, не одного.

## Общий вывод по исследованию <a class = 'anchor' id = 'Вывод'></a>

После проведения исследования можно сформировать выводы о портрете должника банка:
1. Уровень дохода клиента находится в категории "С";
2. Целью кредита клиента являются или "операции с автомобилем", или "получение образования";
3. Семейное положение "не женат/не замужем" или "гражданский брак"

Скорее всего при совпадении указанных признаков алгоритм бинарной классификации, построенный для банка, выдаст решение "отказать в выдаче кредита" новому клиенту банка.