# Исследование надежности заемщиков


## Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом. 



## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [10]:
unique_children = sorted(data['children'].unique())
unique_children

[0, 1, 2, 3, 4, 5]

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру.**

In [14]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [15]:
data.duplicated().sum()

71

In [16]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [17]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

**Для начала узнаем процент клиентов с задолженностью по всей выборке**

In [22]:
debt = data['debt'].sum() / data['debt'].count()
print('Процент людей имеющих задолженность: {:.0%}'.format(debt))

Процент людей имеющих задолженность: 8%


**Проверим репрезентативность данных по количеству детей. Посчитаем сколько записей в данных есть для каждого уникального количества детей в семье.**

In [23]:
display(data['children'].value_counts())
with_3_children = data[data['children'] == 3]['children'].count() / data['children'].count()
with_4_children = data[data['children'] == 4]['children'].count() / data['children'].count()
with_5_children = data[data['children'] == 5]['children'].count() / data['children'].count()
print('''Процент людей, имеющих 3 ребёнка: {:.2%}.
Процент людей, имеющих 4 ребёнка: {:.2%}.
Процент людей, имеющих 5 детей: {:.2%}'''.format(with_3_children, with_4_children, with_5_children))

0    14091
1     4808
2     2052
3      330
4       41
5        9
Name: children, dtype: int64

Процент людей, имеющих 3 ребёнка: 1.55%.
Процент людей, имеющих 4 ребёнка: 0.19%.
Процент людей, имеющих 5 детей: 0.04%


**Как мы видим в таблице представлено совсем немного пользователей у которых 3, 4 и 5 детей. Суммарно это 380 человек из которых 41 имеют 4 ребёнка и лишь 9 имеют 5 детей, что составляет соответственно 1.55%, 0.19% и 0.04% от общей выборки. Суммарно колличество людей, входящих в эти 3 группы, составляет менее 2% от общего числа клиентов.**

In [24]:
by_children = data.groupby('children').agg({'debt': ['count', 'sum']})
debt_by_children = by_children['debt']['sum'] / by_children['debt']['count']
for child in unique_children:
    print('Процент людей, имеющих количество детей {} и задолженность: {:.0%}'.format(
        child, debt_by_children[child]
    ))

Процент людей, имеющих количество детей 0 и задолженность: 8%
Процент людей, имеющих количество детей 1 и задолженность: 9%
Процент людей, имеющих количество детей 2 и задолженность: 9%
Процент людей, имеющих количество детей 3 и задолженность: 8%
Процент людей, имеющих количество детей 4 и задолженность: 10%
Процент людей, имеющих количество детей 5 и задолженность: 0%


In [25]:
data[data['children'] == 5]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
3979,5,1572.328285,42,среднее,1,гражданский брак,1,M,сотрудник,0,142594,на покупку своего автомобиля,C,операции с автомобилем
4397,5,3248.839837,36,среднее,1,женат / замужем,0,F,компаньон,0,168460,операции с недвижимостью,C,операции с недвижимостью
7866,5,773.124856,36,среднее,1,женат / замужем,0,F,сотрудник,0,48772,операции с жильем,D,операции с недвижимостью
15822,5,418.199982,31,среднее,1,женат / замужем,0,F,сотрудник,0,77552,сделка с подержанным автомобилем,C,операции с автомобилем
15916,5,2286.262752,37,среднее,1,женат / замужем,0,F,сотрудник,0,256698,покупка недвижимости,B,операции с недвижимостью
16211,5,387.317579,35,среднее,1,гражданский брак,1,F,госслужащий,0,126102,на проведение свадьбы,C,проведение свадьбы
20452,5,268.425464,38,начальное,3,женат / замужем,0,F,сотрудник,0,212545,заняться высшим образованием,B,получение образования
20837,5,2386.600221,35,среднее,1,женат / замужем,0,F,компаньон,0,204241,жилье,B,операции с недвижимостью
21156,5,1690.018117,59,среднее,1,женат / замужем,0,M,сотрудник,0,269068,операции со своей недвижимостью,B,операции с недвижимостью


**Вывод:
Процент людей имеющих задолженность варьируется в пределах 2% у людей имеющих от 0 до 4 детей. При этом он резко снижается до 0% у людей, имеющих 5 детей. Так как данных о клиентах, имеющих 3, 4 и 5 детей, крайне мало, полученную в результате анализа этих клиентов информацию о корреляции между количеством детей и возвратом кредита в срок навряд ли можно назвать репрезентативной для этой группы. Нулевой процент задолженности у людей, имеющих 5 детей может быть просто совпадением. При возрастании количества детей с 0 до 2-х мы видим постепенный рост процента задолженности на 1%. Таким образом в целом можно утверждать, что зависимость между количеством детей и ростом веротности появления задолженности имеется. Чем больше в семье детей, тем в среднем выше риск возникновения задолженности. Этот вывод сделан на основании анализа данных о клиентах с 0, 1 и 2 детьми. Для экстраполяции исследования на клиентов с 3, 4 и 5 детьми требуется больше записей по таким клиентам. Имеющееся количество не является в полной мере репрезентативным.** 

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

**Посчитаем сколько записей в данных есть для каждого уникального семейного статуса клиента.**

In [26]:
data['family_status'].value_counts()

женат / замужем          12261
гражданский брак          4134
Не женат / не замужем     2796
в разводе                 1189
вдовец / вдова             951
Name: family_status, dtype: int64

**Данные в целом являются довольно репрезентативными. Подавляющее большинство клиентов составляют люди находящиеся в официальном браке, тогда как меньшинство - овдовевшие.**

In [27]:
by_family = data.groupby('family_status').agg({'debt': ['count', 'sum']})
debt_by_family = by_family['debt']['sum'] / by_family['debt']['count']
unique_family_statuses = data['family_status'].unique()
for status in unique_family_statuses:
    print('Процент людей в семейном статусе {} и имеющих задолженность: {:.0%}'.format(
        status, debt_by_family[status]
    ))

Процент людей в семейном статусе женат / замужем и имеющих задолженность: 8%
Процент людей в семейном статусе гражданский брак и имеющих задолженность: 9%
Процент людей в семейном статусе вдовец / вдова и имеющих задолженность: 7%
Процент людей в семейном статусе в разводе и имеющих задолженность: 7%
Процент людей в семейном статусе Не женат / не замужем и имеющих задолженность: 10%


**Вывод: Можно утверждать, что коллебания по проценту клиентов с задолженностью в рамках семейных групп также не очень велико и составляет 3%. При этом мы всё же можем проследить некоторую незначительную зависимость, согласно которой максимальный процент людей имеющих задолженность (10% от группы) наблюдается среди неженатых / незамужних клиентов.** 

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

**Посчитаем сколько записей в данных есть для каждой уникальной категории дохода клиента.**

In [28]:
display(data['total_income_category'].value_counts())
less_than_50000 = data[data['total_income'] <= 50000]['total_income'].count() / data['total_income'].count()
less_than_30000 = data[data['total_income'] <= 30000]['total_income'].count() / data['total_income'].count()
more_than_1000000 = data[data['total_income'] > 1000000]['total_income'].count() / data['total_income'].count()
print('''Процент людей, имеющих доход 30 000 руб. и менее: {:.2%}.
Процент людей, имеющих доход от 30 001 руб. до 50 000 руб.: {:.2%}.
Процент людей, имеющих доход более 1 000 000 руб: {:.2%}'''.format(
    less_than_30000, less_than_50000, more_than_1000000
))

C    15921
B     5014
D      349
A       25
E       22
Name: total_income_category, dtype: int64

Процент людей, имеющих доход 30 000 руб. и менее: 0.10%.
Процент людей, имеющих доход от 30 001 руб. до 50 000 руб.: 1.74%.
Процент людей, имеющих доход более 1 000 000 руб: 0.12%


**Как мы видим, доля людей, имеющих доход категории "А", "D" и "Е" крайне невелика и составляет всего 0.12%, 1.74% и 0.10% соответственно. Распределение здесь похоже на расперделение данных о клиентах с детьми. Группы клиентов, относящихся к категориям дохода "А", "D" и "Е" весьма немногочисленны и наврядли могут быть названы репрезентативными.**

In [29]:
category_num_dict = {
    'A': '1 000 001 и выше',
    'B': '200 001 – 1 000 000',
    'C': '50 001 – 200 000',
    'D': '30 001 – 50 000',
    'E': '0 – 30 000'
}
by_income = data.groupby('total_income_category').agg({'debt': ['count', 'sum']})
debt_by_category = by_income['debt']['sum'] / by_income['debt']['count']
unique_income_categories = sorted(data['total_income_category'].unique())
for category in unique_income_categories:
    print('Процент людей с доходом категории {} (доход: {}) и имеющих задолженность: {:.0%}'.format(
        category, category_num_dict[category], debt_by_category[category]
    ))

Процент людей с доходом категории A (доход: 1 000 001 и выше) и имеющих задолженность: 8%
Процент людей с доходом категории B (доход: 200 001 – 1 000 000) и имеющих задолженность: 7%
Процент людей с доходом категории C (доход: 50 001 – 200 000) и имеющих задолженность: 8%
Процент людей с доходом категории D (доход: 30 001 – 50 000) и имеющих задолженность: 6%
Процент людей с доходом категории E (доход: 0 – 30 000) и имеющих задолженность: 9%


**Вывод: наименьший процент задолженности наблюдается у людей с доходом от 30 001 до 50 000 руб. Он составляет всего 6%, наибольшее же процентное соотношение клиентов с задолженностью и без наблюдается в группе E (доход: 0 – 30 000), однако эти группы нельзя назвать полностью репрезентативными в силу их малой численности (349 и 22 человека соответственно). Группы с доходами от 50 001 до 200 000 и от 1 000 001 имеют стандартный процент задолженности: 8%, однако группа с доходами от миллиона и выше также весьма малочисленна (25 человек) и нерепрезентативна, тогда как процент задолженности в промежуточной группе (от 200 001 до 1 000 000) чуть ниже и составляет 7%. Ярких отклонений в группах не замечено. Если анализировать самые многочисленные выборки B и C, можно констатировать обратную зависимость между уровнем дохода и уровнем риска возникновения задолженности. Чем доход клиента выше, тем с меньшей вероятностью у него возникнет задолженность.** 

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

**Посчитаем сколько записей в данных есть для каждой уникальной группы целей клиента.**

In [30]:
data['purpose_category'].value_counts()

операции с недвижимостью    10751
операции с автомобилем       4279
получение образования        3988
проведение свадьбы           2313
Name: purpose_category, dtype: int64

**Данные в целом являются довольно репрезентативными. Подавляющее большинство клиентов составляют люди, берущие кредит для проведения операций с недвижимостью, тогда как меньшинство оформляет кредит для проведения свадьбы.**

In [31]:
by_purpose = data.groupby('purpose_category').agg({'debt': ['count', 'sum']})
debt_by_purpose = by_purpose['debt']['sum'] / by_purpose['debt']['count']
unique_purposes = data['purpose_category'].unique()
for purpose in unique_purposes:
    print('Процент людей с целями в категории "{}" и имеющих задолженность: {:.0%}'.format(
        purpose, debt_by_purpose[purpose]
    ))

Процент людей с целями в категории "операции с недвижимостью" и имеющих задолженность: 7%
Процент людей с целями в категории "операции с автомобилем" и имеющих задолженность: 9%
Процент людей с целями в категории "получение образования" и имеющих задолженность: 9%
Процент людей с целями в категории "проведение свадьбы" и имеющих задолженность: 8%


**Вывод: процент задолженности меньше в категории целей "операции с недвижимостью", там он составляет 7%, выше всего процент задолженности в двух категориях: "получение образования" и "операции с автомобилем" - 9%. Средний процент задолженности у категории целей "проведение свадьбы" - 8%. Мы опять же не наблюдаем сильных отклонений от среднего процента по всем данным (8%). Нельзя сказать, что какая-либо ярко выраженная зависимость от одного этого показателя прослеживается в имеющихся данных.** 

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ: в целом пропуски могут возникнуть как из-за технической причины (баг формы сбора данных, отсутствие вопросов в опросном листе), так и из-за человеческого фактора (респондент может отказаться предоставлять сведения). Так как пропуски в исходных данных мы наблюдали только в 2-х колонках и их равное количество в каждой колонке (2174), я могу предположить, что они возникли скорее из-за технической причины. Например, какое-то время POST-запрос не записывал в базу данных ответы на эти два вопроса, либо же вопросы в принципе не отображались/не задавались.* 

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ: На первый взгляд наиболее оптимальным способом замены пропусков в числовых данных действительно кажется использование медианы. Медиана позволяет избежать искажений, связанных с выбросами в данных. Например, если в количественных данных присутствует небольшой процент цифр со значениями существенно выше или наоборот ниже, чем основная выборка, подсчёт среднего арифметического может быть ощутимо искажён. (E.g. в ряду 1, 1, 1, 1, 10000000 среднее арифметическое не будет отражать превалирующее значение столбца). В этом случае медиана куда более точна. Однако медиану нельзя назвать безапелляционно лучшим решением. Если пропусков в данных какое-то ощутимое количество, то заполнение даже медианой может вызвать искажение всех показателей, характеризующих свойства распределения (кроме среднего значения), а также отразиться в заниженной корреляции и завышенной оценке стандартных отклонений. Существует мнение, что одним из наиболее оптимальных подходов к восстановлению пропусков является применение методов на основе регрессионных моделей, в частности на основе стохастической линейной регрессии. Этот подход позволяет не только отразить в заполненных пропусках линейную зависимость между характеристиками, но и отклонения от линейной зависимости. К сожалению, пока я знаком с этим подходом только в теории и не обладаю достаточными навыками для его применения.* 

### Шаг 4: общий вывод.

**Подводя итог, можно отметить, что в целом по каждой из анализируемых характеристик не выявлено слишком больших отклонений от средней задолженности в 8%. Отклонения колебались в пределах +- 2%. Однако некоторые закономерности мы можем отследить.**
- Люди берущие кредит для осуществления операций с недвижимостью, с меньшей вероятностью допускают задолженности, чем люди, берущие его для получения образования или операций с автомобилем;
- Чем меньше количество детей у клиента, тем меньше вероятность возникновения задолженности;
- Чем доход клиента выше, тем с меньшей вероятностью у него возникнет задолженность;
- Максимальный процент людей имеющих задолженность (10% от группы) наблюдается среди неженатых / незамужних клиентов.

**Также можно предположить, что нескольких критериев, по которым была замечена чуть меньшая или наоборот большая вероятность задолженности, будут усиливать друг друга, демонстрируя более ярко выраженную корреляцию. Таким образом, данные, полученные на предыдущих этапах могут послужить основой для последующих уже кросс-категориальных исследований.**