# Исследование надежности заемщиков


Для банка важно чтобы его заемщики во время производили платежи по кредитам. В имеющийся базе данных отображенна различная информация о заёмщиках, с её помощью необходимо выяснить какие категории чаще возвращают кредит в срок, а у каких имеются задержки по оплате.

<b>Цель иследования</b> — проверить четыре гипотезы:

1. Влияет ли количество детей у заемщика на возврат кредита в срок.
2. Есть ли зависимость между возвратом кредита в срок и семейным положение.
3. Имеет ли влияние уровень дохода на не погашение кредита в срок.
4. Есть зависимость между целью кредита и его погашением в срок.

<b>Ход исследования</b>

Данные о заёмщиках содержатся в файле `/datasets/data.csv`. Перед проверкой гипотез необходимо ознакомиться с данными.

При налачии ошибок оценить их влияние на исследование. На этапе предобработки необходимо исправить самые критичные ошибки.

Исследование будет проходить в четыре этапа:
 1. Обзор данных
 2. Преобработка данных.
 3. Проверка гипотез
 4. Общий вывод

Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом.



## Откройте таблицу и изучите общую информацию о данных

Импорт библиотеки `pandas` и подключение базы данных `/datasets/data.csv`

In [None]:
import pandas as pd
from IPython.display import display
try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

Вывод первых 20 строчек датафрейма

In [None]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


В первых 20 строках таблицы уже видно, что таблица заполненна не корректно, к примеру:
* В столбце `days_employed` имеются отрицательные и пропущенные значения.
* В столбце `education` имеет неявные дубликаты в разном написании `СРЕДНЕЕ` и `среднее`.
* В столбце `total_income`имеются пропущенные значения.

Получение общей информации о таблице

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице 12 столбцов с типами данных — `int`,`float`,`object`

Согласно документации к данным:

* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

Количество значений в столбцах различаются, следовательно есть пропущенные значения

**Выводы**

В каждой строке таблицы содержатся данные о заёмщике. Его семейное положение, уровень дохода, цель кредита, количество детей и т.д.

Исходя из этих данных можно утверждать, что их достаточно для проверки гипотезы. Но встречаются пропуски, неявные дубликаты и некорректно офрмленна некоторая информация.

Для проверки гипотез необходимо устранить имеющиеся проблемы.

## Предобработка данных

### Удаление пропусков

Подсчитаем количество пропуском по каждому столбцу

In [None]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Заполним медианным значением пропуски в столбце `total_income` в нем хранятся данные о доходах. На заполнение столбца влияет `income_type` — тип занятости. Создадим цикл по которому будут заполнятся пропуски в `total_income` в зависимости от того какой тип занятости у заёмщика в столбце `income_type`.

In [None]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

В столбце `days_employed` имеются отрицательные числа, что невозможно, преобразуем их в положительные методом `abs()`

In [None]:
data['days_employed'] = data['days_employed'].abs()

Сгрупируем данные по типу занятости (столбец `income_type`) и посчитаем медианное значение (`agg('median')`) трудовго стажа(столбец `days_employed`).

In [None]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

Выводим перечень уникальных столбца `children` значений методом `.unique()`

In [None]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Удаляем аномальные значений, они могу повлиять на проверку гипотезы.

In [None]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

Проверяем все ли аномальные значения были удаленны.

In [None]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

Заполним медианным значением пропуски в столбце `days_employed` в нем хранится информация о общем трудов стаже в днях. На заполнение столбца влияет `income_type` — тип занятости. Создадим цикл по которому будут заполнятся пропуски в `days_employed` в зависимости от того какой тип занятости у заёмщика в столбце `income_type`.

In [None]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

Ещё раз проверяем чтобы небыло пропусков

In [None]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.

In [None]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

Убираем неявные дубликаты в в столбце `education`, привидением их к общему виду методом `.lower()`

In [None]:
data['education'] = data['education'].str.lower()

Подсчитываем количество строк дубликатов

In [None]:
data.duplicated().sum()

71

И удаляем их

In [None]:
data = data.drop_duplicates()

### Категоризация данных

На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

Создаем фунцкию, с помощью которой разделим людей на категории ('A', 'B', 'C', 'D', 'E') в зависимостих от их заработка.

In [None]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

Создадим новый столбец `total_income_category`. В него будется заполняться к какой категории по доходу относится заёмщик.

In [None]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

С помощью метода `.unique()` узнаем на какие цели берутся кредиты.

In [None]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Все цели можно разделить на четыре категории:
- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Задание 18. Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.


Создадим функцию `categorize_purpose(row)`, которая делит цели кредитов, на четыре категории

In [None]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

Создадим новый столбец `purpose_category`. В него будется заполняться к какой категории по цели кредита относится заёмщик.

In [None]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
display(data.head(30))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


**Выводы**

Предобработка обнаружила четыре проблемы:

* Явные и неявные дубликаты.
* Наличие пропуском.
* Аномальные значения.
* Несоответствие типов данных.

Явные дубликаты были удаленны, неявные исправлены. Пропуски заполнены медианным значениями. Аномальные значения, которые могли исказить проверку гипотез были удаленны. Несоответстветствующие типы данных приведенны к необходимым

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

Создаем сводную таблицу по количеству детей. В ней отразим количество детей столбец `children`, количество людей которые не вернули кредит в срок `sum_debt`, общее количество заёмщиков `count_debt`, доля заёмщиков во время не вернувших кредит отображается в столбце `mean_debt`.
Для более корректного отображения и удобной работы с таблицой были удаленны мультииндексы.

In [None]:
data_pivot = data.pivot_table(index=['children'],values=['debt'],aggfunc=['sum','count','mean'])
data_pivot = data_pivot.reset_index()
data_pivot.columns = ['_'.join(col).strip() for col in data_pivot.columns.values]

display(data_pivot)

Unnamed: 0,children_,sum_debt,count_debt,mean_debt
0,0,1063,14091,0.075438
1,1,444,4808,0.092346
2,2,194,2052,0.094542
3,3,27,330,0.081818
4,4,4,41,0.097561
5,5,0,9,0.0


В дальнейшем столбцы таблицы были переименованны. Произведенны вычисления:
* Количество заёмщиков вернувших в срок кредит, столбец `sum_return_debt`
* Доли не вернувших в срок кредит переведенны в проценты, столбец `debt_%`
* Найден процент заёмщиков вернувших в срок кредит, столбец `return_debt_%`

Так же стобцы были выстроенны в опредлённом порядке и отсортированны по убыванию процента возврата кредита.

In [None]:
# Ваш код будет здесь. Вы можете создавать новые ячейки.
data_pivot = data_pivot.rename(columns = {'children_' : 'children','mean_debt':'debt_%',})
data_pivot['sum_return_debt'] = data_pivot['count_debt'] - data_pivot['sum_debt']
data_pivot['debt_%'] = data_pivot['debt_%']*100
data_pivot['return_debt_%'] = 100 - data_pivot['debt_%']
data_pivot = data_pivot.reindex(columns=['children', 'sum_debt', 'sum_return_debt','count_debt','debt_%','return_debt_%'])
display(data_pivot.sort_values(by='return_debt_%',ascending=False))

Unnamed: 0,children,sum_debt,sum_return_debt,count_debt,debt_%,return_debt_%
5,5,0,9,9,0.0,100.0
0,0,1063,13028,14091,7.543822,92.456178
3,3,27,303,330,8.181818,91.818182
1,1,444,4364,4808,9.234609,90.765391
2,2,194,1858,2052,9.454191,90.545809
4,4,4,37,41,9.756098,90.243902


**Вывод:**

Гипотеза подвердилась:
* Люди без детей чаще возвращают кредит в срок
* Люди с 5 детьми всегда возвращают кредит в срок, но их количество слишком мало (9 человек), чтобы подтвердить гипотезу

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

Создаем группировку по семейному статусу и присоединяем к нему количество заёмщиков не вернувших кредит в срок `sum`, общее количество взявших кредит `count`, и долю не вернуших `mean`

In [None]:
data_family = data.groupby('family_status')['debt'].agg(['sum','count','mean']).reset_index()

display(data_family)

Unnamed: 0,family_status,sum,count,mean
0,Не женат / не замужем,273,2796,0.097639
1,в разводе,84,1189,0.070648
2,вдовец / вдова,63,951,0.066246
3,гражданский брак,385,4134,0.09313
4,женат / замужем,927,12261,0.075606


В дальнейшем мы переименовываем столбцы и производим вычисления:
* Количество заёмщиков не вернувших в срок кредит, столбец `sum_debt`
* Количество заёмщиков вернувших в срок кредит, столбец `sum_return_debt`
* Общее количество заёмщиков, столбец `count_debt`
* Доли не вернувших в срок кредит переведенны в проценты, столбец `debt_%`
* Найден процент заёмщиков вернувших в срок кредит, столбец `return_debt_%`

Так же стобцы были выстроенны в опредлённом порядке и отсортированны по убыванию процента возврата кредита.

In [None]:
# Ваш код будет здесь. Вы можете создавать новые ячейки.

data_family = data_family.rename(columns = {'mean':'debt_%', 'sum': 'sum_debt', 'count': 'count_debt'})
data_family['sum_return_debt'] = data_family['count_debt'] - data_family['sum_debt']
data_family['debt_%'] = data_family['debt_%']*100
data_family['return_debt_%'] = 100 - data_family['debt_%']
data_family = data_family.reindex(columns=['family_status', 'sum_debt', 'sum_return_debt','count_debt','debt_%','return_debt_%'])
display(data_family.sort_values(by='return_debt_%',ascending=False))

Unnamed: 0,family_status,sum_debt,sum_return_debt,count_debt,debt_%,return_debt_%
2,вдовец / вдова,63,888,951,6.624606,93.375394
1,в разводе,84,1105,1189,7.06476,92.93524
4,женат / замужем,927,11334,12261,7.560558,92.439442
3,гражданский брак,385,3749,4134,9.313014,90.686986
0,Не женат / не замужем,273,2523,2796,9.763948,90.236052


**Вывод:**

Гипотеза подвердилась:
* Вдовцы / вдовы и в разводе чаще возвращаю кредит в срок, но они реже других берут кредиты
* Категория женат / замужем чаще других берут кредиты, и находятся на третье позиции по возврату кредита в срок

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Создаем группировку по категориям уровня дохода и присоединяем к нему количество заёмщиков не вернувших кредит в срок `sum`, общее количество взявших кредит `count`, и долю не вернуших `mean`

Переименовываем столбцы и производим вычисления:
* Количество заёмщиков не вернувших в срок кредит, столбец `sum_debt`
* Количество заёмщиков вернувших в срок кредит, столбец `sum_return_debt`
* Общее количество заёмщиков, столбец `count_debt`
* Доли не вернувших в срок кредит переведенны в проценты, столбец `debt_%`
* Найден процент заёмщиков вернувших в срок кредит, столбец `return_debt_%`

In [None]:
data_income = data.groupby('total_income_category')['debt'].agg(['sum','count','mean']).reset_index()
data_income = data_income.rename(columns = {'mean':'debt_%', 'sum': 'sum_debt', 'count': 'count_debt'})
data_income['sum_return_debt'] = data_income['count_debt'] - data_income['sum_debt']
data_income['debt_%'] = data_income['debt_%']*100
data_income['return_debt_%'] = 100 - data_income['debt_%']
display(data_income)

Unnamed: 0,total_income_category,sum_debt,count_debt,debt_%,sum_return_debt,return_debt_%
0,A,2,25,8.0,23,92.0
1,B,354,5014,7.060231,4660,92.939769
2,C,1353,15921,8.49821,14568,91.50179
3,D,21,349,6.017192,328,93.982808
4,E,2,22,9.090909,20,90.909091


Из получившегося результата не ясно к какому диапозону дохода относиться каждая категория, создадим функцию, которая к каждой категории подставит диапозон доходов заёмщиков.

In [None]:
# Ваш код будет здесь. Вы можете создавать новые ячейки.

def range_of_categories(category):
    try:
        if category == 'E':
            return '(0;30000]'
        elif category == 'D':
            return '[30001;50000]'
        elif category == 'C':
            return '[50001;200000]'
        elif category == 'B':
            return '[200001;1000000]'
        elif category == 'A':
            return '[1000001;∞]'
    except:
        pass

Дальше создадим столбец `range_of_categories` и подставим к каждой категории её диапозон, через ранее созданную функцию.
Переставим столбцы в необходимом для понимания порядке и отсортируем таблицу по убыванию количества заёмщиков.

In [None]:
data_income['range_of_categories'] = data_income.apply(lambda x: range_of_categories(x.total_income_category), axis=1)
data_income = data_income.reindex(columns=['total_income_category','range_of_categories', 'sum_debt', 'sum_return_debt','count_debt','debt_%','return_debt_%'])
display(data_income.sort_values(by='count_debt',ascending=False))

Unnamed: 0,total_income_category,range_of_categories,sum_debt,sum_return_debt,count_debt,debt_%,return_debt_%
2,C,[50001;200000],1353,14568,15921,8.49821,91.50179
1,B,[200001;1000000],354,4660,5014,7.060231,92.939769
3,D,[30001;50000],21,328,349,6.017192,93.982808
0,A,[1000001;∞],2,23,25,8.0,92.0
4,E,(0;30000],2,20,22,9.090909,90.909091


**Вывод:**

Гипотеза подвердилась:
* Люди с доходом 50001-200000 чаще других берут кредиты, но на предпоследнем месте по возврату кредита в срок
* Категория с доходом 200001-1000000 на втором месте по количеству взятых кредитов, и так же на втором месте по их возврату в срок
* Так же было выявленно, что в основном кредит берут люди из двух категорий доходов от 50001 до 200000 и 200001 до 1000000

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

Создаем группировку по целям кредита и присоединяем к нему количество заёмщиков не вернувших кредит в срок `sum`, общее количество взявших кредит `count`, и долю не вернуших `mean`

In [None]:
data_purpose = data.groupby('purpose_category')['debt'].agg(['sum','count','mean']).reset_index()

Переименовываем столбцы и производим вычисления:
* Количество заёмщиков не вернувших в срок кредит, столбец `sum_debt`
* Количество заёмщиков вернувших в срок кредит, столбец `sum_return_debt`
* Общее количество заёмщиков, столбец `count_debt`
* Доли не вернувших в срок кредит переведенны в проценты, столбец `debt_%`
* Найден процент заёмщиков вернувших в срок кредит, столбец `return_debt_%`

Переставляем столбцы в необходимом порядке и сортируем по убыванию возврата кредита в процентах.

In [None]:
# Ваш код будет здесь. Вы можете создавать новые ячейки.
data_purpose = data_purpose.rename(columns = {'mean':'debt_%', 'sum': 'sum_debt', 'count': 'count_debt'})
data_purpose['sum_return_debt'] = data_purpose['count_debt'] - data_purpose['sum_debt']
data_purpose['debt_%'] = data_purpose['debt_%']*100
data_purpose['return_debt_%'] = 100 - data_purpose['debt_%']
data_purpose = data_purpose.reindex(columns=['purpose_category', 'sum_debt', 'sum_return_debt','count_debt','debt_%','return_debt_%'])
display(data_purpose.sort_values(by='return_debt_%',ascending=False))

Unnamed: 0,purpose_category,sum_debt,sum_return_debt,count_debt,debt_%,return_debt_%
1,операции с недвижимостью,780,9971,10751,7.255139,92.744861
3,проведение свадьбы,183,2130,2313,7.911803,92.088197
2,получение образования,369,3619,3988,9.252758,90.747242
0,операции с автомобилем,400,3879,4279,9.347978,90.652022


**Вывод:**

Гипотеза подвердилась:
* Люди с целью кредита операции с недвижимостью чаще других возвращают кредит в срок
* С небольшим отставанием идет категория кредитов на проведение свадьбы

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:*

* Некорректные формы заполнения личных данных на сайте
* Неправильно сформированный запрос на выгрузку из базы данных
* Человеческий фактор при заполнении базы данных

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:*

Выбросы в данных могу сильно исказить среднее значение, в том время как на медиану они не повлияют

### Шаг 4: общий вывод.

Для проверки поставленных гипотез было пройдено три этапа:
1. Обзор данных
2. Предобработка данных.
3. Проверка гипотез

На стадии обзора данных, был рассмотрен файл `/datasets/data.csv`и выявленно, что база данных заполняется не корректно, а именно:
* Имеются явные или неявные дубликаты
* Отсутсвует заполнение некоторых полей
* Имеются отрицательные значения, где они никак не могут быть

Из этого можно сделать вывод, что возможно **нет проверки** при заполнении информации о заёмщиках. Что позволяет делать неявные дубликаты, заполнять отрицательными числами данные, которые могут быть только положительными или вовсе не заполнять поля.

На этапе предобработки были устраннены следующие проблемы:
 1. Явные и неявные дубликаты.
 2. Наличие пропуском.
 3. Аномальные значения.

Явные дубликаты в количестве 71 строк были удаленны, не явные дубликаты в столбце `education`, приведенны к общему виду.

Пропуски в столбцах `days_employed`,`total_income` заполнены медианным значениями по каждому типу занятости из столбца `income_type`.

Аномальные значения в столбце `children`, которые могли исказить проверку гипотез были удаленны, а именно количество детей -1 и 20.

Так были исправленны аномальные значения столбца `days_employed`, имевшие отрицательное значение.

Были созданы категории по уровню дохода заёмщика и диапозонами:
- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


По целям кредита также создали категории:
- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

С их помощью можно легко и быстро группировать, сортировать данные, на это также стоит обратить внимание при заполнении базы данных.

На последнем этапе было проверенно четыре гипотезы и установленно:
    
 **1.** Влияет ли количество детей на возврат кредитов

 Первая гипотеза **подтвердилась**:
* Люди без детей чаще возвращают кредиты
* Многодетные заёмщики с пятью детими всегда возвращаю кредит в срок, но их количество не достаточно, для подтверждения гипотезы.
    
    
 **2.** Влияет ли семейное положение на возврат кредита

 Вторая гипотеза так же **подтвердилась**:
* Вдовцы / вдовы и в разводе чаще возвращаю кредит в срок, но они реже других берут кредиты
* Категория женат / замужем чаще других берут кредиты, и находятся на третье позиции по возврату кредита в срок
    
    
 **3.** Влияет ли уровень дохода на возврат кредита

 Гипотеза **подвердилась**:
* Люди с доходом 50001-200000 чаще других берут кредиты, но на предпоследнем месте по возврату кредита в срок
* Категория с доходом 200001-1000000 на втором месте по количеству взятых кредитов, и так же на втором месте по их возврату в срок
* Так же было выявленно, что в основном кредит берут люди из двух категорий доходов от 50001 до 200000 и 200001 до 1000000
    
**4.** Влияют ли цели кредита на его возврат

   Гипотеза **подвердилась**:
* Люди с целью кредита операции с недвижимостью чаще других возвращают кредит в срок
* С небольшим отставанием идет категория кредитов на проведение свадьбы
    
    На основании проверенных гипотез, можно сделать вывод:
    
 1) Имеющиеся гипотезы имеют полное подтверждение    
 2) Для более корректного исследования гипотез, необходимо больше информации по некоторым категориям кредитуемых, так как её отсутствие затрудняет или искажает получаемые выводы.