# Исследование надежности заемщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. 

Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Данные о платежеспособности клиентов банка были получены из файла `...`. 


## Описание данных

- `children` — количество детей в семье;
- `days_employed` — общий трудовой стаж в днях;
- `dob_years` — возраст клиента в годах;
- `education` — уровень образования клиента;
- `education_id` — идентификатор уровня образования;
- `family_status` — семейное положение;
- `family_status_id` — идентификатор семейного положения;
- `gender` — пол клиента;
- `income_type` — тип занятости;
- `debt` — имел ли задолженность по возврату кредитов;
- `total_income` — ежемесячный доход;
- `purpose` — цель получения кредита.


## Настройка рабочей среды

In [1]:
# Импорт библиотеки pandas в сокращенной форме pd
import pandas as pd 

## Глобальные переменные

In [2]:
# Ссылка на данные
dataset_path = '...'

dic_income_category = {
    'A' : '1000001 и выше',
    'B' : '200001–1000000', 
    'C' : '50001–200000',
    'D' : '30001–50000',
    'E' : '0–30000',
}


## Функции

In [3]:
# Функция для определения категории клиента по доходу
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [4]:
# Функция для определения категории цели кредита клиента по названию цели
def categorize_purpose(purpose):
    try:
        if 'автом' in purpose:
            return 'операции с автомобилем'
        elif 'жил' in purpose or 'недвиж' in purpose:
            return 'операции с недвижимостью'
        elif 'свад' in purpose:
            return 'проведение свадьбы'
        elif 'образов' in purpose:
            return 'получение образования'
    except:
        return 'нет категории'

In [5]:
# Функция для предварительного общего анализа датафрейма
def df_analysis(df):

    # Отображение датафрейма df
    display(df.head(10))
    print('*'*100)

    # Вывод основной информации о датафрейме df с помощью метода info().
    df.info()
    print('*'*100)

    # Проверка количества пропущенных значений по каждому столбцу в датафрейме df
    print('Количество пропущенных значений по столбцам')
    print(df.isna().sum())
    print('*'*100)
        

## Загрузка данных и изучение общей информации

In [6]:
# Чтение данных из csv-файла в датафрейм и сохранение в переменную data
try:
    data = pd.read_csv(dataset_path, sep=',')
except FileNotFoundError as e:
    print(f"FileNotFoundError successfully handled\n"
          f"{e}")

In [7]:
df_analysis(data)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


****************************************************************************************************
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
**********************************************************************

Предварительный обзор данных показал:

- есть пропущенные значения;
- есть несоотвествие типов данных;
- встречаются аномальные значения (в поле `days_employed` есть отрицательные значения).


## Предобработка данных

### Обработка аномальных значений

Наблюдается отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработаем значения в этом столбце, заменим все отрицательные значения положительными с помощью метода `abs()`.

In [8]:
data['days_employed'] = data['days_employed'].abs()

Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.

In [9]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получаются аномально большие значения. Исправить такие значения сложно, поэтому оставляем их как есть.

In [10]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.

In [11]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

In [12]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков

In [13]:
data.isna().sum()

children               0
days_employed       2162
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2162
purpose                0
dtype: int64

В двух столбцах есть пропущенные значения. Cтолбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце можно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.

In [14]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

Аналогично заполняем пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.

In [15]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

In [16]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

Заменим вещественный тип данных в столбце `total_income` на целочисленный. 

In [17]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

In [18]:
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру.

In [19]:
data['education'] = data['education'].str.lower()

In [20]:
# Проверка количества дубликатов в датафрейме data
print('Количество дубликатов: {0}'.format(data.duplicated().sum()), end='')
    
# Подсчет процента дубликатов в датафрейме data
print(' ({:.2%} от общего количества записей).'.format(data.duplicated().sum()/data.shape[0]))

Количество дубликатов: 71 (0.33% от общего количества записей).


Удаляем дубликаты

In [21]:
data = data.drop_duplicates()

In [22]:
# Проверка количества дубликатов в датафрейме data
print('Количество дубликатов: {0}'.format(data.duplicated().sum()), end='')
    
# Подсчет процента дубликатов в датафрейме data
print(' ({:.2%} от общего количества записей).'.format(data.duplicated().sum()/data.shape[0]))

Количество дубликатов: 0 (0.00% от общего количества записей).


### Категоризация данных

На основании диапазонов дохода создаем в датафрейме `data` столбец `total_income_category` с категориями:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


In [23]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

In [24]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Сформируем новый столбец `purpose_category`, на основе данных из столбца `purpose`:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.


In [25]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

## Исследовательский анализ данных

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [26]:
# Подсчет количества клиентов без задолжности и с задолжностью по каждому уникальному значению 
# "children" - "количество детей в семье" из датафрейма data
data_group_child = (
    data
    .groupby('children')['debt']
    .agg(['count','sum', 'mean'])
    .sort_values(by='mean', ascending=False)
    .reset_index()
)
# Перевод значений из столбца 'mean' в проценты
data_group_child['mean'] = round(data_group_child['mean'] * 100, 2)
# Переименование столбцов
data_group_child = data_group_child.rename(columns={
    'count': 'all_count',
    'sum': 'count',
    'mean': 'mean'
})
data_group_child

Unnamed: 0,children,all_count,count,mean
0,4,41,4,9.76
1,2,2052,194,9.45
2,1,4808,444,9.23
3,3,330,27,8.18
4,0,14091,1063,7.54
5,5,9,0,0.0


**Вывод:** 

- `children` - количество детей в семье;
- `all_count` - общее количество клиентов в этой категории;
- `count` - количество клиентов, имеющих задолженность по возврату кредита в категории;
- `mean` - `%` клиентов, возвращающих кредит не в срок.

С увеличением числа детей в семье, увеличивается процент клиентов, возвращающих кредит с задолжность. В семьях с четырьмя детьми процент клиентов, которые возвращают кредит не в срок составляет почти 10%. 

При этом из результатов немного выбиваются семьи с тремя детьми, статистика по ним гораздо ниже, чем в семьях с одним ребенком.
Информация по семьям с пятью детьми мало информативна (100% возврат в срок) в связи с тем, что таких семей в целом мало (9 из 21331 это 0,04% клиентов из общего списка).

Процент клиентов, возвращающих кредит в срок, в семьях без детей больше, чем в семьях с детьми.
Так же можно сказать, что семьи без детей чаще всего берут кредиты в банке (14091 из 21331 это 66% клиентов из общего списка).

Гипотеза подтверждается, есть зависимость между количеством детей в семье и возвратом кредита в срок. Семьи с детьми чаще всего возвращают кредит не в срок. Причем процент таких клиентов больше в семьях с четырьмя детьми.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [27]:
# Подсчет количества клиентов без задолжности и с задолжностью по каждому уникальному значению 
# "family_status" - "семейное положение" из датафрейма data
data_group_status = (
    data
    .groupby('family_status')['debt']
    .agg(['count','sum', 'mean'])
    .sort_values(by='mean', ascending=False)
    .reset_index()
)
# Перевод значений из столбца 'mean' в проценты
data_group_status['mean'] = round(data_group_status['mean'] * 100, 2)
# Переименование столбцов
data_group_status = data_group_status.rename(columns={
    'count': 'all_count',
    'sum': 'count',
    'mean': 'mean'
})
data_group_status

Unnamed: 0,family_status,all_count,count,mean
0,Не женат / не замужем,2796,273,9.76
1,гражданский брак,4134,385,9.31
2,женат / замужем,12261,927,7.56
3,в разводе,1189,84,7.06
4,вдовец / вдова,951,63,6.62


**Вывод:** 

- `family_status` - семейное положение;
- `all_count` - общее количество клиентов в категории;
- `count` - количество клиентов, имеющих задолженность по возврату кредита в категории;
- `mean` - `%` клиентов, возвращающих кредит не в срок.

Процент клиентов, возвращаемых кредит с задолжностью, больше всего в категории со статусом `Не женат / не замужем`. Почти рядом располагается категория с семейным положением - `гражданский брак`. 

Люди с семейным положением `женат / замужем` и `в разводе` имеют больший процент возврата кредитов в срок. При этом категория людей со статусом `женат / замужем` занимает 57% от всех данных для исследования (12261 из 21331 клиентов из общего списка).

Меньше всего задолжностей у людей, определивших свое положение как `вдовец / вдова`.

Гипотеза подтверждается, есть зависимость между семейным положением и возвратом кредита в срок. Люди вне брака чаще всего возвращают кредит не в срок.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [28]:
# Подсчет количества клиентов без задолжности и с задолжностью по каждому уникальному значению 
# "total_income_category" - "уровень дохода" из датафрейма data
data_group_income = (
    data
    .groupby('total_income_category')['debt']
    .agg(['count','sum', 'mean'])
    .sort_values(by = 'mean', ascending = False)
    .reset_index()
)
# Перевод значений из столбца 'mean' в проценты
data_group_income['mean'] = round(data_group_income['mean'] * 100, 2)
data_group_income['total_income_category_name'] = data_group_income['total_income_category'].map(dic_income_category)
# Переименование столбцов
data_group_income = data_group_income.rename(columns={
    'count': 'all_count',
    'sum': 'count',
    'mean': 'mean'
})
data_group_income

Unnamed: 0,total_income_category,all_count,count,mean,total_income_category_name
0,E,22,2,9.09,0–30000
1,C,15921,1353,8.5,50001–200000
2,A,25,2,8.0,1000001 и выше
3,B,5014,354,7.06,200001–1000000
4,D,349,21,6.02,30001–50000


**Вывод:** 

- `total_income_category_name` - уровень дохода;
- `all_count` - общее количество клиентов в категории;
- `count` - количество клиентов, имеющих задолженность по возврату кредита в категории;
- `mean` - `%` клиентов, возвращающих кредит не в срок.

Процент клиентов, которые возвращают кредит с задолжностью, выше всего у клиентов с самым низким уровнем дохода, при этом и клиентов таких мало (22 из 21331 это 0,1% клиентов из общего списка).

Категория клиентов с самым высоким доходом находится в середине таблицы, но данных очень мало и они мало информативны (25 из 21331 это 0,1% клиентов из общего списка).

Гипотеза частично подтверждается, есть зависимость между уровнем дохода и возвратом кредита в срок. Люди с маленьким уровнем дохода чаще всего не возвращают кредит в срок. Но при этом данных сликшом мало, чтобы сделать точные выводы, возможно, была не верно выбрана стратегия категоризации клиентов по уровню дохода. 

Так же стоит отметить, что в исходных данных было почти 10% (2174 от 21331 клиентов из общего списка) записей с пустым значеним ежемесячного дохода, который был проставлен автоматически, как медиана среди клиентов с таким же типом занятости. Возможно, подобная попытка восстановить данные повлияла на результаты исследования.

Но анализируя самые многочисленные выборки можно сделать вывод, что чем выше уровень дохода у клиента, тем чаще он погашает кредит в срок.

### Как разные цели кредита влияют на его возврат в срок?

In [29]:
# Подсчет количества клиентов без задолжности и с задолжностью по каждому уникальному значению 
# "purpose_category" - "категория цели получения дохода" из датафрейма data
data_group_purpose = ( 
    data
    .groupby('purpose_category')['debt']
    .agg(['count','sum', 'mean'])
    .sort_values(by='mean', ascending = False)
    .reset_index()
)
# Перевод значений из столбца 'mean' в проценты
data_group_purpose['mean'] = round(data_group_purpose['mean'] * 100, 2)
# Переименование столбцов
data_group_purpose = data_group_purpose.rename(columns={
    'count': 'all_count',
    'sum': 'count',
    'mean': 'mean'
})
data_group_purpose


Unnamed: 0,purpose_category,all_count,count,mean
0,операции с автомобилем,4279,400,9.35
1,получение образования,3988,369,9.25
2,проведение свадьбы,2313,183,7.91
3,операции с недвижимостью,10751,780,7.26


**Вывод:** 

- `purpose_category` - цель получения кредита;
- `all_count` - общее количество клиентов в категории;
- `count` - количество клиентов, имеющих задолженнгсть по возврату кредита в категории;
- `mean` - `%` клиентов, возвращающих кредит не в срок.

Клиенты, взявщие кредит на "операции с автомобилем" и "получение образования", чаще возвращают его не в срок, в отличии от клиентов, взявших кредит на "проведение свадьбы" и  "операции с недвижимостью".

В отношении операций с недвижимостью, возможно, это связано с тем, что кредит на жилье это очень взвешенное решение, и люди взявшие кредит должны быть заранее к этому готовы. Возможно, что этому так же способствуют процентные ставки по кредитам.

Кредит на машину, казалось бы тоже очень взвешенное решение, потому что обычно покупка очень дорогая, при этом процент погашения с задолжностью самый высокий. Возможно, клиенты неверно оценивают свои возможности при приобретении автомобиля. Аналогичный результат по образованию.

Гипотеза не подтверждается, и не опровергается. Возможно, тут стоит проанализировать суммы кредита, а не цели, на которые он идет. Так же интересно, как хранятся в базе данные по разным кредитам одного и того же клиента, и какая статистика их выплат.

### Приведите возможные причины появления пропусков в исходных данных.

На мой взгляд пропуски в данных произошли вследствии технического сбоя при получении данных из БД или хранения информации. При выполнии задания №4 оба столбца имели равное количество пропущенных данных (это несколько подозрительно, т.е. пропуски не хаотичны). Если предположить, что данные по трудовому стажу никак не влияют на процесс выдачи и одобрения кредита, то общий суммарный доход чаще всего это основной показатель платежеспособности клиента. Поэтому "пустые" данные тут быть не должны, в то время как их около 10% (2174 от 21331). 

### Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

При заполнении пропусков медианными значениями на величину не влияют случайные или единичные всплески данных (слишком большие или слишком малые). В отличии от среднего значения, одно единичное слишком большое значение может сильно увеличить среднюю по всей группе

## Общий вывод

### Задачи

Необходимо проверить зависимость семейного положения и количества детей на факт погашения кредита в срок.

### Описание данных

- `children` — количество детей в семье;
- `days_employed` — общий трудовой стаж в днях;
- `dob_years` — возраст клиента в годах;
- `education` — уровень образования клиента;
- `education_id` — идентификатор уровня образования;
- `family_status` — семейное положение;
- `family_status_id` — идентификатор семейного положения;
- `gender` — пол клиента;
- `income_type` — тип занятости;
- `debt` — имел ли задолженность по возврату кредитов;
- `total_income` — ежемесячный доход;
- `purpose` — цель получения кредита;

### Предобработка данных

Предварительный анализ данных показал:
 - столбцы названы правильно и удобно (нет пробелов, нет кириллических букв, нет заглавных букв и служебных символов), никаких преобразований не требуется;
 - типы данных у столбцов в основном правильные (только у одного столбца был изменен тип данных с вещественного на целочисленный - `total_income` - "ежемесячный доход");
 - есть пропуски данных в столбцах `days_employed` - "общий трудовой стаж в днях" и `total_income` - "ежемесячный доход".

**Пустые данные** не удобны в работе со статистикой. Было принято решение проставить вместо пустых значений в поле `total_income` медианное значение для каждого типа занятости. Аналогично были преобразованы пустые значения в поле `days_employed`

В процессе подсчета мединанных значений по типу занятости для столбцов `total_income` и `days_employed` была обнаружена странность: аномально большое количество - безработных и пенсионеров. Исправить такие значения сложно, поэтому принято решение - оставить как есть.

Так же была найдена еще одна аномальность в данных: в поле количество детей есть значение "-1" и "20". Эти строки были удалены.

Следующим этапом был **анализ данных на явные и неявные дубликаты**. Неявные дубликаты встретились в столбце `education` - "уровень образования клиента" благодаря разному регистру букв. Все записи в столбце были преобразованы к нижнему регистру. После этого были удалены все явные дубликаты записей.

Для удобстава анализа информации были добавлены два новых параметра по каждому клиенту, и произведена **категоризация данных** по ним. 

Каждому клиенту в соответствиии с его доходом была проставлена "категория доходности клиента" - `total_income_category`

- `0–30000 — 'E'`;
- `30001–50000 — 'D'`;
- `50001–200000 — 'C'`;
- `200001–1000000 — 'B'`;
- `1000001 и выше — 'A'`.

Каждому клиенту в соответствиии с его доходом была проставлена "цель кредита" - `purpose_category`

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

После предварительной обработки данных были произведены исследования для подтверждения гипотез.

### Исследовательский анализ

Гипотеза: есть зависимость между количеством детей и возвратом кредита в срок - подтверждена. Клиенты без детей чаще возвращают кредит в срок.

Гипотеза: есть зависимость между семейным положением и возвратом кредита в срок - подтверждена. Клиенты вне брака чаще всего имеют задолжность по возврату кредитов.

Гипотеза: есть зависимость между уровнем дохода и возвратом кредита в срок - подтвердилась. Клиенты с низким уровнем дохода, действительно чаще имеют задолжности, но данных слишком мало. Вероятно, была неверно сделана категоризация данных по уровню дохода. А так же на результат могло повлиять утранение пропущенных данных в столбце с доходом (его мы восстанавливали как медиану среди клиентов с таким же типом занятости).

Гипотеза: есть зависимость между целью кредита и возвратом кредита в срок - не подтвердилась, и не опроверглась. Клиенты, взявшие кредит на покупку недвижимости, чаще всего возвращают без задолжности, возможно, это связано с осознанностью дорогой покупки или страхом остаться без жилья. Но процент клиентов, взявших кредит на проведение свадьбы и вернувших его с задолжностью, почти совпадает с данными по недвижимости.

### Общий вывод

В результате исследования можно сделать вывод, что люди в браке, или бывшие ранее в браке, при этом не имеющие детей, или имеющие одного ребенка, с ежемесячным доходом более 200 000 рубей, более отвественно подходят к вопросу погашения кредитов.

Банку стоит обратить внимание корректность сбора и хранения данных о клиентах: 
- много безработных и пенсионеров;
- есть некорректные значения в поле "количество детей в семье";
- встречаются пробелы в поле "ежемесячный доход";
- встречаются пробелы в поле общий трудовой стаж.