# Проект "Исследование надежности заемщиков".

**Цель исследования:** выяснить, оказывает ли влияние семейное положение и количество детей клиента на факт погашения кредита в срок.

**Задачи исследования:**
*	Определить, есть ли зависимость между количеством детей и возвратом кредита в срок.
*	Выяснить, есть ли зависимость между семейным положением и возвратом кредита в срок.
*	Определить, есть ли зависимость между уровнем дохода и возвратом кредита в срок?
*	Ответить на вопрос: как разные цели кредита влияют на его возврат в срок?

### Шаг 1. Обзор данных

Импортируем библиотеку pandas, загрузим данные в переменную clients.

In [1]:
import pandas as pd

In [2]:
try:
    clients = pd.read_csv('data.csv')
except:
    clients = pd.read_csv('/datasets/data.csv')

In [3]:
clients.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Получим информацию о таблице.

In [4]:
clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице 12 колонок. Из них 5 колонок строкового типа ('education', 'family_status', 'gender', 'income_type', 'purpose'), 5 целочисленных ('children', 'dob_years', 'education_id', 'family_status_id', 'debt') и 2 колонки вещественного типа ('days_employed', 'total_income').


Выведем названия колонок таблицы.

В таблице 12 колонок. Из них 5 колонок строкового типа ('education', 'family_status', 'gender', 'income_type', 'purpose'), 5 целочисленных ('children', 'dob_years', 'education_id', 'family_status_id', 'debt') и 2 колонки вещественного типа ('days_employed', 'total_income').


Выведем названия колонок таблицы.

In [5]:
clients.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Обнаружились аномальные значения количественных переменных:
* в столбце 'children' - отрицательные значения и выброс - число 20
* в столбце 'days_employed' отрицательные значения и большой выброс (401755)
* значение 0 в столбце 'dob_years'.

Теперь выведем названия колонок таблицы.

In [6]:
clients.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

Согласно документации к данным:
*	`children` — количество детей в семье;
*	`days_employed` — общий трудовой стаж в днях;
*	`dob_years` — возраст клиента в годах;
*	`education` — уровень образования клиента;
*	`education_id` — идентификатор уровня образования;
*	`family_status` — семейное положение;
*	`family_status_id` — идентификатор семейного положения;
*	`gender` — пол клиента;
*	`income_type` — тип занятости;
*	`debt` — имел ли задолженность по возврату кредитов;
*	`total_income` — ежемесячный доход;
*	`purpose` — цель получения кредита.

Колонки, данные в которых имеют количественный характер:
*   `children`;
*   `days_employed`;
*   `total_income`;
*   `dob_years`.

Колонки, данные в котрых относятся к категориальным:
*	`education` — уровень образования клиента;
*	`education_id` — идентификатор уровня образования;
*	`family_status` — семейное положение;
*	`family_status_id` — идентификатор семейного положения;
*	`gender` — пол клиента;
*	`income_type` — тип занятости;
*	`debt` — имел ли задолженность по возврату кредитов;
*	`purpose` — цель получения кредита.

Названия колонок соответствуют описанию данных, нарушения стиля в названиях не выявлено.

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

С первых строк выборки видны ошибки заполнения данных:
* в данных есть аномалии: отрицательные значения в колонке 'days_employed' (трудовой стаж не может быть отрицательным).
* буквы разного регистра в одних и тех же значениях столбца 'education'.

Необходимо детально исследовать данные на пропуски и аномальные значения.

### Шаг 2  Предобработка данных


### Шаг 2.1 Заполнение пропусков

Посчитаем количество пропущенных значений.

In [7]:
clients.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Есть пропуски в колонках 'days_employed' и 'total_income'.

Посчитаем долю пропусков по отношению ко всем данным.

In [8]:
clients.isna().mean()

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

Пропуски в столбцах 'days_employed' и 'total_income' имеют одинаковое количественное значение 2174 и составляют по 10% от всех данных в столбцах. Так как сумма пропусков в обоих столбцах одинаковая, предположим, что пропуски по этим столбцам находятся в одних и тех же строках.

In [9]:
clients[clients['days_employed'].isna()].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


Посчитаем строки, где одновременно есть пропуски и в 'days_employed', и в 'total_income'.

In [10]:
clients[clients['days_employed'].isna() & clients['total_income'].isna()]['children'].count()

2174

По количеству таких строк, действительно, видно, что пропуски в столбцах 'days_employed' и 'total_income' всегда в одной и той же строке. Значит, скорее всего, такие пропуски не случайны. Возможно, произошел сбой программы при загрузке данных о стаже и доходах некоторых клиентов.

Выберем максимальное и минимальное значения в столбце 'total_income'.

In [11]:
clients['total_income'].max()

2265604.028722744

In [12]:
clients['total_income'].min()

20667.26379327158

Между максимальным и минимальным значениями большая разница.

Пропуски в количественных переменных лучше всего заполнять медианным значением по столбцу. Среднее значение некорректно характеризует данные, когда некоторые значения сильно выделяются среди большинства. Когда в выборке присутствуют выдающиеся значения, лучше использовать медиану.

Заменим пропуски в столбце 'total_income' медианным значением по этому столбцу. Значение медианы поместим в переменную total_income_median, затем заменим пропуски на значение этой переменной.

In [13]:
total_income_median = clients['total_income'].median()
print(total_income_median)

145017.93753253992


In [14]:
clients['total_income'] = clients['total_income'].fillna(clients.groupby('income_type')['total_income'].transform("median"))
clients.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Пропуски в 'total_income' заменены медианными значениями.

Теперь нужно исправить пропуски в столбце 'days_employed'. Это колонка с количественными данными, поэтому пропуски тоже лучше заполнять медианным значением по столбцу.

При обзоре данных обнаружились отрицательные значения в столбце 'days_employed'. Посмотрим, какова доля таких данных.

In [15]:
round(clients[clients['days_employed'] < 0]['days_employed'].count() / len(clients) * 100, 2)

73.9

Доля таких данных очень большая. Скорее всего, такая ошибка произошла в результате программного сбоя при выгрузке данных.

Прежде чем заполнять пропуски в этом столбце, нужно избавиться от отрицательных значений с помощью умножения этих значений на -1.

In [16]:
clients.loc[clients['days_employed'] < 0,'days_employed'] *= (-1)

Убедимся в отсутствии отрицательных значений в столбце 'days_employed'.

In [17]:
clients[clients['days_employed'] < 0]['days_employed'].count()

0

In [18]:
clients.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Отрицательных значений в столбце больше нет.

Выберем максимальное и минимальное значения столбца 'days_employed'.

In [19]:
clients['days_employed'].max()

401755.40047533

In [20]:
clients['days_employed'].min()

24.14163324048118

Максимальное значение столбца 'days_employed' слишком велико. Посчитаем количество лет максимального значения стажа.

In [21]:
clients['days_employed'].max()/ 365

1100.6997273296713

Получается, стаж работы около 1100 лет. Такое значение является аномальным.

Определим максимальный трудовой стаж, который является корректным. Выведем последние данные из таблицы, отсортированной по убыванию стажа, ограничив стаж 50 годами.

In [22]:
clients[(clients['days_employed'] / 365 >= 50)].sort_values(by = 'days_employed', ascending = False).tail()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
14783,0,328795.726728,62,высшее,0,женат / замужем,0,F,пенсионер,0,79940.196752,на покупку своего автомобиля
17782,0,328771.341387,56,среднее,1,женат / замужем,0,F,пенсионер,0,68648.047062,операции с коммерческой недвижимостью
9328,2,328734.923996,41,высшее,0,женат / замужем,0,M,пенсионер,0,126997.49776,операции со своей недвижимостью
20444,0,328728.720605,72,среднее,1,вдовец / вдова,2,F,пенсионер,0,96519.339647,покупка жилья для семьи
16335,1,18388.949901,61,среднее,1,женат / замужем,0,F,сотрудник,0,186178.934089,операции с недвижимостью


Корректным является последнее значение 18388.95, это около 50.3 лет стажа.

Посмотрим, сколько в таблице таких аномальных значений. Выберем клиентов со стажем не более 51 года.

In [23]:
clients[(clients['days_employed'] / 365 >= 51)]['days_employed'].count()

3445

In [24]:
 clients[(clients['days_employed'] / 365 >= 51)]['days_employed'].count() / clients['children'].count() * 100

16.004645760743323

Доля данных с аномальным значением трудового стажа составляет 16% от всех данных. Сделаем выборку строк таблицы с аномальными значениями стажа.

In [25]:
clients[clients['days_employed'] / 365 >= 51].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости
30,1,335581.668515,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.067993,операции с коммерческой недвижимостью
35,0,394021.072184,68,среднее,1,гражданский брак,1,M,пенсионер,0,77805.677436,на проведение свадьбы
50,0,353731.432338,63,среднее,1,женат / замужем,0,F,пенсионер,0,92342.730612,автомобили
56,0,370145.087237,64,среднее,1,вдовец / вдова,2,F,пенсионер,0,149141.043533,образование
71,0,338113.529892,62,среднее,1,женат / замужем,0,F,пенсионер,0,43929.696397,автомобили
78,0,359722.945074,61,высшее,0,женат / замужем,0,M,пенсионер,0,175127.646,сделка с автомобилем


В первых 10 строках выборки при аномальных значениях столбца 'days_employed' в столбце 'income_type' значение 'пенсионер'. Проверим, сколько в таблице пенсионеров с аномальными значениями 'days_employed'.

In [26]:
clients[(clients['days_employed'] / 365 >= 51) & (clients['income_type'] == 'пенсионер')]['days_employed'].count()

3443

Теперь посмотрим, сколько всего пенсионеров.

In [27]:
clients[(clients['income_type'] == 'пенсионер')]['income_type'].count()

3856

Из 3445 аномальных значений 3443 приходится на пенсионеров. (Всего пенсионеров 3856, большая часть из которых с аномальным трудовым стажем) Посмотрим, на клиентов с каким источником дохода приходятся два других аномальных значения.

In [28]:
clients[(clients['days_employed'] / 365 >= 51)&(clients['income_type'] != 'пенсионер')].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3133,1,337524.466835,31,среднее,1,женат / замужем,0,M,безработный,1,59956.991984,покупка жилья для сдачи
14798,0,395302.838654,45,Высшее,0,гражданский брак,1,F,безработный,0,202722.511368,ремонт жилью


Аномальные значениия также у безработных. Посмотрим, сколько  безработных клиентов в таблице.

In [29]:
clients[(clients['income_type'] == 'безработный')]['income_type'].count()

2

Получается, что аномальные значения столбца 'days_employed' у большинства клиентов со статусом 'пенсионер' и у всех клиентов со статусом 'безработный'. Возможно, эти ошибки появились в результате сбоя программы при загрузке данных о клиентах с такими статусами. 

Посмотрим, есть ли среди пенсионеров клиенты с допустимым значением столбца 'days_employed' (со стажем меньше 51 года).

In [30]:
clients[(clients['days_employed'] / 365 < 51) & (clients['income_type'] == 'пенсионер')]['income_type'].count()

0

Пенсионеров с корректным стажем в таблице нет. Значит, скорее всего, у остальных пенсионеров стаж не заполнен. Проверим это.

In [31]:
clients[(clients['days_employed'].isna()) & (clients['income_type'] == 'пенсионер')]['income_type'].count()

413

Действительно, в таблице всего 3856 пенсионеров, из них 3443 пенсионера с аномальным значением стажа и 413 - с пропущенным стажем. Можно было бы заменить аномальные значения и пропуски на медианные значения стажа среди пенсионеров, но корректных значений стажа для пенсионеров в таблице нет, как и для безработных.

Стаж для пенсионеров можно приблизительно рассчитать исходя из возраста, пола и уровня образования клиентов. Для этого нужно исследовать информацию в соответствующих столбцах таблицы: 'dob_years','gender' и 'education'. 

В столбце 'dob_years' при обзоре данных ошибок не обнаружено. Проверим его на аномалии, посмотрим какими будут максимальное и минимальное значения.

In [32]:
clients['dob_years'].min()

0

In [33]:
clients['dob_years'].max()

75

Максимальное значение столбца 'dob_years' в пределах нормы, минимальное равно 0, такого возраста быть не может.

Проверим, есть ли еще значения возраста меньше 18 лет, т.к. кредит могут дать только лицам старше 18.

In [34]:
clients[clients['dob_years'] < 18]['dob_years'].value_counts()

0    101
Name: dob_years, dtype: int64

Обнаружены только нулевые значения. Возможно, возраст просто не был указан, и по умолчанию в числовое поле попал 0. 

In [35]:
clients[clients['dob_years'] < 18]['dob_years'].value_counts()

0    101
Name: dob_years, dtype: int64

In [36]:
round(clients[clients['dob_years'] < 18]['dob_years'].count() * 100 / len(clients),2)

0.47

Данных с возрастом 0 меньше 1%, их лучше удалить.

In [89]:
clients = clients.loc[clients['dob_years'] > 0]
clients[clients['dob_years'] == 0]['dob_years'].count()

0

Клиентов с возрастом 0 больше нет в данных.

Проверим данные в столбце 'education'.

In [39]:
clients['education'].value_counts()

среднее                13691
высшее                  4686
СРЕДНЕЕ                  770
Среднее                  708
неоконченное высшее      666
ВЫСШЕЕ                   273
Высшее                   266
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Выяснилось, что в столбце 'education' есть неявные дубликаты: одни и те же значения, но записанные по-разному, с использованием заглавных и строчных букв. Их нужно привести их к одному регистру. 

Приведем значения столбца 'education' к нижнему регистру.

In [40]:
clients['education'] = clients['education'].str.lower()

Проверим изменения.

In [41]:
clients['education'].value_counts()

среднее                15169
высшее                  5225
неоконченное высшее      742
начальное                282
ученая степень             6
Name: education, dtype: int64

Получилось 5 уровней образования:
*  среднее                
*  высшее                 
*  начальное               
*  неоконченное высшее      
*  ученая степень       


Проверим значения столбца 'gender'.

In [42]:
clients['gender'].value_counts()

F      14164
M       7259
XNA        1
Name: gender, dtype: int64

Неявных дубликатов в столбце нет.

Есть одно аномальное значение 'XNA'. Т.к. оно в единственном числе, удалим его.

In [43]:
clients = clients[clients['gender'] != 'XNA']
clients['gender'].value_counts()

F    14164
M     7259
Name: gender, dtype: int64

Аномалия устранена.

Напишем функцию, которая рассчитает приблизительный стаж пенсионера исходя из возраста, пола и уровня образования.

In [44]:
def calc_days_employed(row):
    # начало карьеры определим исходя из уровня образования
    if row['education'] == 'начальное':
         start_career = 16
    elif row['education'] == 'среднее':
         start_career = 18
    elif row['education'] == 'неоконченное высшее':
        start_career = 21
    else:
        start_career =22
    #определим возраст выхода на пенсию исходя из гендерных данных    
    if row['gender'] == 'M':
        end_career = 65
    else:
        end_career = 60
    #если клиент вышел на пенсию до достижения пенсионного возраста, исправим переменную end_career
    if row['dob_years'] < end_career:
        end_career = row['dob_years']
    #вычислим количество отработанных дней     
    return (end_career - start_career) * 365

Применим функцию calc_days_employed к столбцу 'days_employed' для клиентов-пенсионеров.

In [45]:
clients.loc[clients['income_type'] == 'пенсионер','days_employed']=clients.apply(calc_days_employed, axis=1)
display(clients[(clients['income_type'] == 'пенсионер')].head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,12775.0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
12,0,17155.0,65,среднее,1,гражданский брак,1,M,пенсионер,0,118514.486412,сыграть свадьбу
18,0,12775.0,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,14235.0,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,17155.0,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости


Проверим, сколько остальсь аномальных значений в столбце 'days_employed'.

In [46]:
clients[(clients['days_employed'] / 365 >= 51)]['days_employed'].count()

2

Осталось два аномальных значения стажа у безработных клиентов. Теперь исправим эту ошибку заменой стажа медианным значением по таблице без учета аномалий. Медиану стажа поместим в переменную days_employed_median.

In [47]:
days_employed_median = clients[(clients['days_employed'] / 365 < 51)]['days_employed'].median()
print(days_employed_median)

2269.310012807389


Заменим оставшиеся аномальные значения медианой.

In [48]:
clients.loc[(clients['days_employed'] / 365) >= 51,'days_employed'] = days_employed_median

Проверим столбец 'days_employed' на аномальные значения.

In [49]:
clients.loc[(clients['days_employed'] / 365) >= 51,'days_employed'].count()

0

Аномальных значений в столбце 'days_employed' больше нет.

Теперь заполним пропуски в столбце 'days_employed' на медиану по столбцу.

In [50]:
clients['days_employed'] = clients['days_employed'].fillna(days_employed_median)

Проверим все данные на отсутствие пропусков.

In [51]:
clients.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Пропусков больше нет.

### Шаг 2.2 Проверка данных на аномалии и исправления.

Проверим столбец 'children'. 
Посмотрим, какие значения принимают данные из этого столбца.

In [52]:
clients['children'].value_counts()

 0     14079
 1      4802
 2      2042
 3       328
 20       75
-1        47
 4        41
 5         9
Name: children, dtype: int64

Обнаружны отрицательные значения (количество детей не может быть <0). Возможная причина такой аномалии - случайная ошибка ввода данных (человеческий фактор).


Исправим ошибку умножением отрицательных значений в столбце на -1.

In [53]:
clients.loc[clients['children'] < 0,'children'] *= (-1)

Также странным кажется количество детей 20 у 75 клиентов. Причем отсутствуют промежуточные значения между количеством детей 5 и 20. Поэтому, скорее всего, 20 -  ошибка ввода (ввели 20 вместо 2), и количество 20 лучше исправить на 2.

In [54]:
clients.loc[clients['children'] == 20,'children']=2

Проверим результат.

In [55]:
clients['children'].value_counts()

0    14079
1     4849
2     2117
3      328
4       41
5        9
Name: children, dtype: int64

Ошибки в столбце 'children' исправлены - отрицательных значений нет. 

Столбцы 'education','gender' и 'dob_years' были проверены ранее.

Проверим столбец 'education_id'.

In [56]:
clients['education_id'].value_counts()

1    15169
0     5225
2      741
3      282
4        6
Name: education_id, dtype: int64

Столбец 'education_id' - идентификатор столбца 'education'. Исходя из полученных данных, идентификатор принимает значения 0,1,2,3,4 в соответствии с уровнем образования.

Проверим столбец 'family_status'.

In [57]:
clients['family_status'].value_counts()

женат / замужем          12331
гражданский брак          4155
Не женат / не замужем     2797
в разводе                 1185
вдовец / вдова             955
Name: family_status, dtype: int64

Здесь нет неявных дубликатов.

Проверим значения столбца 'family_status_id'.

In [58]:
clients['family_status_id'].value_counts()

0    12331
1     4155
4     2797
3     1185
2      955
Name: family_status_id, dtype: int64

Столбец 'family_status_id' - идентификатор столбца 'family_status'. Исходя из полученных данных, идентификатор принимает значения 0,1,2,3,4 в соответствии с семейным положением.

Проверим значения столбца 'income_type'.

In [59]:
clients['income_type'].value_counts()

сотрудник          11064
компаньон           5064
пенсионер           3836
госслужащий         1453
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

Неявных дубликатов в столбце 'income_type' нет.


Проверим значения столбца 'purpose'.

In [60]:
clients['purpose'].value_counts()

свадьба                                   792
на проведение свадьбы                     773
сыграть свадьбу                           769
операции с недвижимостью                  673
покупка коммерческой недвижимости         661
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     649
операции с жильем                         647
покупка жилья                             641
жилье                                     641
покупка жилья для семьи                   640
строительство собственной недвижимости    633
операции со своей недвижимостью           630
недвижимость                              630
строительство жилой недвижимости          623
строительство недвижимости                620
покупка недвижимости                      620
покупка своего жилья                      619
ремонт жилью                              610
покупка жилой недвижимости                604
на покупку своего автомобиля              502
заняться высшим образованием      

Изучив цели кредита можно выделить из низ 4 основные:
*	`операции с автомобилем`,
*	`операции с недвижимостью`,
*	`проведение свадьбы`,
*	`получение образования`.

На этапе категоризации данных можно разделить клиентов по цели кредита на 4 основных категории.

Проверим столбец 'debt'.

In [61]:
clients['debt'].value_counts()

0    19690
1     1733
Name: debt, dtype: int64

Столбец 'debt' содержит данные о задолженности по возврату кредитов. Значения этого столбца принимают 1 или 0 (1 - задолженность есть, 0 - задолженности нет). То есть, это категориальная переменная логического типа.

Аномалии выявлены и исправлены в тех данных, которые понадобятся для исследования.

### Шаг 2.3. Изменение типов данных.

Чтобы проще было определить зависимость между уровнем дохода и возвратом кредита в срок заменим вещественный тип данных в столбце 'total_income' на целочисленный.

In [62]:
clients['total_income'] = clients['total_income'].astype('int')
clients.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,12775.0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


In [63]:
clients.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21423 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21423 non-null  int64  
 1   days_employed     21423 non-null  float64
 2   dob_years         21423 non-null  int64  
 3   education         21423 non-null  object 
 4   education_id      21423 non-null  int64  
 5   family_status     21423 non-null  object 
 6   family_status_id  21423 non-null  int64  
 7   gender            21423 non-null  object 
 8   income_type       21423 non-null  object 
 9   debt              21423 non-null  int64  
 10  total_income      21423 non-null  int32  
 11  purpose           21423 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 2.5+ MB


Данные в столбце 'total_income' приведены к целочисленному виду.

### Шаг 2.4. Удаление дубликатов.

Проверим данные на наличие явных дубликатов.

In [64]:
clients.duplicated().sum()

71

Посмотрим, какова доля дубликатов по отношению ко всем данным.

In [65]:
round(clients.duplicated().sum() * 100 / len(clients),2) 

0.33

Явные дубликаты скорее всего появляются в результате программного сбоя.

Доля меньше 1%, поэтому удалим явные дубликаты с обновлением индексов.

In [66]:
clients = clients.drop_duplicates().reset_index(drop = True)
clients.duplicated().sum()

0

Дубликатов больше нет.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

В таблице clients хранятся данные об образовании и семейном положении ('education' и 'family_status'), а также их идентификаторы  (столбцы 'education_id' и 'family_status_id'). Чтобы сократить размер файла с данными можно в таблице clients оставить только идентификаторы и создать два датафрейма-словаря, в которых:
*	каждому уникальному значению из education соответствует уникальное значение education_id — в первом;
*	каждому уникальному значению из family_status соответствует уникальное значение family_status_id — во втором.

In [67]:
#Создадим датафрейм education, куда включим столбцы 'education' и 'education_id'
education = pd.DataFrame({'education_id': clients['education_id'], 'education': clients['education']})
# Удалим дубликаты, чтобы записи были уникальными
education = education.drop_duplicates().reset_index(drop = True)
display(education)

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [68]:
#Создадим датафрейм family_status, куда включим столбцы 'family_status' и 'family_status_id'
family_status = pd.DataFrame({'family_status_id': clients['family_status_id'],'family_status': clients['family_status']})
# Удалим дубликаты, чтобы записи были уникальными
family_status = family_status.drop_duplicates().reset_index(drop = True)
display(family_status)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


Удалим теперь лишнюю информацию из основного датафрейма clients (столбцы 'education' и 'family_status').

In [69]:
clients = clients.drop(['education','family_status'],axis=1)
display(clients.head())

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,12775.0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


Теперь информация об образовании и семейном положении вынесена из основного датафрейма по клиентам в два датафрейма-словаря, из которых можно по идентификатору найти уровень образования и семейный статус.

### Шаг 2.6. Категоризация дохода.

Для исследования зависимости между уровнем дохода и возвратом кредита в срок разделим клиентов на категории по уровню дохода. Создадим столбец total_income_category со следующим соответствием 'доход-категория':
*	0–30000 — 'E';
*	30001–50000 — 'D';
*	50001–200000 — 'C';
*	200001–1000000 — 'B';
*	1000001 и выше — 'A'.


In [70]:
#создадим функцию, которая принимает на входе размер дохода и возвращает соответствующую категорию
def income_category(income):
    if (income >=0) & (income <= 30000):
        return 'E'
    if (income >= 30001) & (income <= 50000):
        return 'D'
    if (income >= 50001) & (income <= 200000):
        return 'C'
    if (income >=200001) & (income <= 1000000):
        return 'B'
    if income >= 1000001:
        return 'A'
#применим функцию к столбцу с общим доходом    
clients['total_income_category'] = clients['total_income'].apply(income_category)  
display(clients.head())

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,12775.0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


In [71]:
clients['total_income_category'].value_counts()

C    15942
B     5015
D      348
A       25
E       22
Name: total_income_category, dtype: int64

Клиенты теперь разделены на категории по уровню дохода.

### Шаг 2.7. Категоризация целей кредита.

Теперь нужно разделить клиентов на категории по целям кредита. 

In [72]:
clients['purpose'].value_counts()

свадьба                                   786
на проведение свадьбы                     764
сыграть свадьбу                           760
операции с недвижимостью                  672
покупка коммерческой недвижимости         658
покупка жилья для сдачи                   649
операции с коммерческой недвижимостью     648
операции с жильем                         646
покупка жилья                             640
жилье                                     640
покупка жилья для семьи                   637
строительство собственной недвижимости    633
недвижимость                              629
операции со своей недвижимостью           627
строительство жилой недвижимости          621
строительство недвижимости                619
покупка своего жилья                      619
покупка недвижимости                      617
ремонт жилью                              605
покупка жилой недвижимости                603
на покупку своего автомобиля              502
заняться высшим образованием      

Изучив цели кредита можно выделить из низ 4 основные:
*	`операции с автомобилем`,
*	`операции с недвижимостью`,
*	`проведение свадьбы`,
*	`получение образования`.

In [73]:
#создадим функцию, которая на входе принимает строку - цель кредита из датафрейма, а возвращает обобщенную цель кредита
def purpose_category(purpose):
    if ('недвиж' in purpose) | ('жиль' in purpose):
        return 'операции с недвижимостью'
    if ('свадьб' in purpose):
        return 'проведение свадьбы'
    if ('автомобил' in purpose):
        return 'операции с автомобилем'
    if ('образован' in purpose):
        return 'получение образования'
clients['purpose_category'] = clients['purpose'].apply(purpose_category)
#clients['purpose'].apply(purpose_category)
display(clients.head())

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,12775.0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


In [74]:
clients['purpose_category'].value_counts()

операции с недвижимостью    10763
операции с автомобилем       4284
получение образования        3995
проведение свадьбы           2310
Name: purpose_category, dtype: int64

Теперь клиенты разделены на категории для дальнейшего анализа влияния цели кредита на возврат кредита в срок.

### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

Создадим сводную таблицу clients_children, где каждой строке будет соответствовать уникальное количество детей из таблицы clients, а в столбцах будет информация о количестве клиентов без задолженности и с задолженностью.

In [75]:
clients_children = clients.pivot_table(index = ['children'],columns = 'debt', values = 'total_income', aggfunc = 'count', fill_value=0)
display(clients_children.head(10)) 

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,12963,1058
1,4397,442
2,1912,202
3,301,27
4,37,4
5,9,0


Для исследования данных на интересующую нас зависимость добавим в сводную таблицу колонку 'debt_percent', которая покажет долю клиентов, имеющих задолженность, ко всем клиентам с таким же количеством детей. Добавим также колонку 'all_clients', в которой будет сумма всех клиентов по каждой строке таблице, она нужна для расчета 'debt_percent'.

In [76]:
col_0 = clients_children.columns[0]
col_1 = clients_children.columns[1]
clients_children['all_clients'] = clients_children[col_0] + clients_children[col_1]
clients_children['debt_percent'] = round(clients_children[col_1] / clients_children['all_clients'] * 100,2)
display(clients_children)

debt,0,1,all_clients,debt_percent
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,12963,1058,14021,7.55
1,4397,442,4839,9.13
2,1912,202,2114,9.56
3,301,27,328,8.23
4,37,4,41,9.76
5,9,0,9,0.0


##### Вывод 1:

Выведем долю должников по убыванию и сопоставим с количеством детей.

In [77]:
clients_children['debt_percent'].sort_values(ascending = True)

children
5    0.00
0    7.55
3    8.23
1    9.13
2    9.56
4    9.76
Name: debt_percent, dtype: float64

Согласно сводной таблице нет  должников среди клиентов с 5-ю детьми. Но таких клиентов всего 9 человек из 21454 (0.04%), поэтому такой результат малопоказателен. 


Далее клиентов можно разделить на следующие группы:
1. Меньше всего должников (доля около 8%) среди бездетных клиентов и клиентов с 3-мя детьми. 
2. После них по надежности идут клиенты с одним ребёнком (доля должников около 9%). 
3. Среди клиентов с 2-мя и 4-мя детьми доля должников около 10%. 

Разница в долях должников между этими группами выражена слабо - составляет всего около 0.4 - 0.9%.

##### Вопрос 2: 	Есть ли зависимость между семейным положением и возвратом кредита в срок?

Создадим сводную таблицу clients_family_status, где каждой строке будет соответствовать семейное положение из таблицы family_status, а в столбцах будет соответствующая информация о количестве клиентов без задолженности и с задолженностью.

In [78]:
clients_family_status = clients.merge(family_status, on = 'family_status_id', how = 'left').pivot_table(index = ['family_status'],columns = 'debt', values = 'total_income', aggfunc = 'count')
display(clients_family_status)

debt,0,1
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
Не женат / не замужем,2521,273
в разводе,1100,85
вдовец / вдова,892,62
гражданский брак,3743,386
женат / замужем,11363,927


Добавим в сводную таблицу колонку 'debt_percent', которая покажет долю клиентов, имеющих задолженность, ко всем клиентам такого же семейного положения. Добавим также колонку 'all_clients', в которой будет сумма всех клиентов по каждой строке таблице, она нужна для расчета 'debt_percent'.

In [79]:
col_0 = clients_family_status.columns[0]
col_1 = clients_family_status.columns[1]
clients_family_status['all_clients'] = clients_family_status[col_0] + clients_family_status[col_1]
clients_family_status['debt_percent'] = round(clients_family_status[col_1] / clients_family_status['all_clients'] * 100,2)
display(clients_family_status)

debt,0,1,all_clients,debt_percent
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Не женат / не замужем,2521,273,2794,9.77
в разводе,1100,85,1185,7.17
вдовец / вдова,892,62,954,6.5
гражданский брак,3743,386,4129,9.35
женат / замужем,11363,927,12290,7.54


##### Вывод 2:

Выведем долю должников среди клиентов по убыванию и сопоставим с семейным положением.

In [80]:
clients_family_status['debt_percent'].sort_values(ascending = True)

family_status
вдовец / вдова           6.50
в разводе                7.17
женат / замужем          7.54
гражданский брак         9.35
Не женат / не замужем    9.77
Name: debt_percent, dtype: float64

Согласно данным сводной таблицы можно выделить 4 группы по надежности клиентов:
1. Самыми надежными являются клиенты с семейным статусом "в разводе" и "вдовец/вдова". Среди таких клиентов должников меньше всего - около 7%. 
2. Следующая по надежности группа клиентов со статусом "женат/замужем", должников среди них чуть больше - около 8%. 
3. Далее идут клиенты, состоящие в гражданском браке (около 9% должников).
4. Самые последние по надежности - клиенты со статусом "Не женат / не замужем", среди них должников около 10%.

Разница в долях должников между группами надежности клиентов выражена слабо - составляет всего около 0.4 - 1.8%.

##### Вопрос 3:  	Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Создадим сводную таблицу clients_total_income, где каждой строке будет соответствовать категория дохода, а в столбцах будет соответствующая информация о количестве клиентов без задолженности и с задолженностью.

In [81]:
clients_total_income = clients.pivot_table(index = ['total_income_category'],columns = 'debt', values = 'total_income', aggfunc = 'count')
display(clients_total_income)

debt,0,1
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,23,2
B,4660,355
C,14589,1353
D,327,21
E,20,2


Чтобы увидеть интересующую нас зависимость, добавим в сводную таблицу колонку 'debt_percent', которая покажет долю клиентов, имеющих задолженность, ко всем клиентам такой же категории дохода. Также добавим также колонку 'all_clients', в которой будет сумма всех клиентов по каждой строке таблице, она нужна для расчета 'debt_percent'.

In [82]:
col_0 = clients_total_income.columns[0]
col_1 = clients_total_income.columns[1]
clients_total_income['all_clients'] = clients_total_income[col_0] + clients_total_income[col_1]
clients_total_income['debt_percent'] = round(clients_total_income[col_1] / clients_total_income['all_clients'] * 100,2)
display(clients_total_income)

debt,0,1,all_clients,debt_percent
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,23,2,25,8.0
B,4660,355,5015,7.08
C,14589,1353,15942,8.49
D,327,21,348,6.03
E,20,2,22,9.09


##### Вывод 3:

Выведем долю должников среди клиентов по убыванию и сопоставим с категорией дохода.

In [83]:
clients_total_income['debt_percent'].sort_values(ascending = True)

total_income_category
D    6.03
B    7.08
A    8.00
C    8.49
E    9.09
Name: debt_percent, dtype: float64

Исходя из данных сводной таблицы можно выделить следующие группы по надежности клиентов:
1. Самыми надежными являются клиенты с доходами категории D (доход 30001–50000), доля должников среди них около 6%. 
2. Следующие по надежности (около 7% должников) - клиенты категории B (доход 200001–1000000). 
3. Затем идут клиенты из категорий A и С (доход 50001–200000 и от 1000001), должников здесь около 8%. 
4. И последняя по надежности группа клиентов (около 9% должников) из категории Е (доход 0–30000).

Разница в долях должников между группами надежности клиентов также слабо выражена - составляет только около 0.5 - 1%.

##### Вопрос 4: 	Как разные цели кредита влияют на его возврат в срок?

Создадим сводную таблицу clients_purpose, где каждой строке будет соответствовать одна из четырех основных целей кредита, а в столбцах будет соответствующая информация о количестве клиентов без задолженности и с задолженностью.

In [84]:
clients_purpose = clients.pivot_table(index = ['purpose_category'],columns = 'debt', values = 'total_income', aggfunc = 'count')
display(clients_purpose)

debt,0,1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
операции с автомобилем,3884,400
операции с недвижимостью,9984,779
получение образования,3625,370
проведение свадьбы,2126,184


Добавим в сводную таблицу колонку 'debt_percent', которая покажет долю клиентов, имеющих задолженность, ко всем клиентам с такой же целью кредита. Также добавим также колонку 'all_clients', в которой будет сумма всех клиентов по каждой строке таблице, она нужна для расчета 'debt_percent'.

In [85]:
col_0 = clients_purpose.columns[0]
col_1 = clients_purpose.columns[1]
clients_purpose['all_clients'] = clients_purpose[col_0] + clients_purpose[col_1]
clients_purpose['debt_percent'] = round(clients_purpose[col_1] / clients_purpose['all_clients'] * 100,2)
display(clients_purpose)

debt,0,1,all_clients,debt_percent
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
операции с автомобилем,3884,400,4284,9.34
операции с недвижимостью,9984,779,10763,7.24
получение образования,3625,370,3995,9.26
проведение свадьбы,2126,184,2310,7.97


##### Вывод 4:

Выведем долю должников среди клиентов по убыванию и сопоставим с целью кредита.

In [86]:
clients_purpose['debt_percent'].sort_values(ascending = True)

purpose_category
операции с недвижимостью    7.24
проведение свадьбы          7.97
получение образования       9.26
операции с автомобилем      9.34
Name: debt_percent, dtype: float64

Можно выделить 3 группы нвдежности клиентиов:
1. Процент должников меньше всего среди клиентов, которым нужен кредит для операций с недвижимостью (около 7%).
2. Менее надежными являются клиенты, которые обращаются за кредитом на свадьбу (их около 8%). 
3. И больше всего (около 9%) клиентов с задолженностью среди тех, кто берет кредиты на получение образования и операции с автомобилем.

Но разница между каждой группой должников незначительная, от 0.7 до 1.3%.

## Общий вывод:

С помощью сводных таблиц были проанализированы показатели долей должников среди всех клиентов в зависимости от следующих признаков: количества детей, семейного положения, уровня дохода и цели кредита. Для каждого признака были выделены уровни надежности клиентов:

* по количеству детей:

        Количество детей:                 Уровень надежности:
            0, 3                             I
            1                                II
            2, 4                             III
            
* по семейному положению:

        Семейное положение:                Уровень надежности:
            в разводе; вдовец / вдова        I
            женат / замужем                  II
            гражданский брак                 III
            Не женат / не замужем            IV
        
* по уровню дохода:
    
        Категория:                         Уровень надежности:
            D (30001–50000)                  I
            B (200001–1000000)               II
            A, С (50001–200000, от 1000001)  III
            E (0–30000)                      IV

* по цели кредита:                         

        Цель кредита:                       Уровень надежности:
            операции с недвижимостью         I
            проведение свадьбы               II
            операции с автомобилем,
            получение образования            III

Разница в долях должников в уровнях надежности каждой группы очень маленькая - не более 0.4 - 1.8% (влияние всех перечисленных признаков  на вероятность возврата клиентом кредита в срок несущественное).
