**Исследование надёжности заёмщиков**
_____
**Описание исследования**

Заказчик — кредитный отдел банка.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
_____
**Цель исследования**
    
Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. 
_____
**Исходные данные**
   
Входные данные от банка — статистика о платёжеспособности клиентов. 
* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения  кредита
______

**Данное исследование разделим на несколько частей:**

*ссылки на заголовки не работают в github*

[**Часть 1. Изучение общей информации**](#Изучим-общую-информацию-о-данных)

[**Часть 2. Предобработка данных**](#Предобработка-данных)

[**Часть 3. Исследовательский анализ данных**](#Исследование-данных)

[**Часть 4. Общий вывод**](#Общий-вывод)

# Исследование надежности заемщиков


## Изучим общую информацию о данных

**Импортируем библиотеку pandas. Считаем данные из csv-файла в датафрейм и сохраним в переменную `data`.**

In [64]:
# Загрузка библиотек
!pip install jupyter-black -q
import jupyter_black

jupyter_black.load()
import pandas as pd
import warnings

warnings.filterwarnings("ignore")

In [65]:
try:
    data = pd.read_csv("/datasets/data.csv")
except:
    data = pd.read_csv("https://code.s3.yandex.net/datasets/data.csv")

**Выведем первые 20 строчек датафрейма `data` на экран.**

In [67]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Выведем основную информацию о датафрейме с помощью метода `info()`.**

In [69]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Выведем количество пропущенных значений для каждого столбца.**

In [71]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце мы обработаем на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [73]:
for t in data["income_type"].unique():
    data.loc[
        (data["income_type"] == t) & (data["total_income"].isna()), "total_income"
    ] = data.loc[(data["income_type"] == t), "total_income"].median()

### Обработка аномальных значений

**В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработаем значения в этом столбце: заменим все отрицательные значения положительными с помощью метода `abs()`.**

In [75]:
data["days_employed"] = data["days_employed"].abs()

**Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.**

In [77]:
data.groupby("income_type")["days_employed"].agg("median")

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

**У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть.**

**Выведем перечень уникальных значений столбца `children`.**

In [79]:
data["children"].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

**В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [81]:
data = data[(data["children"] != -1) & (data["children"] != 20)]

**Ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [83]:
data["children"].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)

**Заполним пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [85]:
for t in data["income_type"].unique():
    data.loc[
        (data["income_type"] == t) & (data["days_employed"].isna()), "days_employed"
    ] = data.loc[(data["income_type"] == t), "days_employed"].median()

**Убедимся, что все пропуски заполнены. Проверим себя и ещё раз выведем количество пропущенных значений для каждого столбца с помощью двух методов.**

In [87]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [89]:
data["total_income"] = data["total_income"].astype(int)

### Обработка дубликатов

**Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведём их к нижнему регистру.**

In [91]:
data["education"] = data["education"].str.lower()

Выведем на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их.

In [93]:
data.duplicated().sum()

71

In [95]:
data = data.drop_duplicates()

### Категоризация данных

**На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используем собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [97]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return "E"
        elif 30001 <= income <= 50000:
            return "D"
        elif 50001 <= income <= 200000:
            return "C"
        elif 200001 <= income <= 1000000:
            return "B"
        elif income >= 1000001:
            return "A"
    except:
        pass

In [99]:
data["total_income_category"] = data["total_income"].apply(categorize_income)

**Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [101]:
data["purpose"].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используем собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучим данные в столбце `purpose` и определим, какие подстроки помогут правильно определить категорию.**

In [103]:
def categorize_purpose(row):
    try:
        if "автом" in row:
            return "операции с автомобилем"
        elif "жил" in row or "недвиж" in row:
            return "операции с недвижимостью"
        elif "свад" in row:
            return "проведение свадьбы"
        elif "образов" in row:
            return "получение образования"
    except:
        return "нет категории"

In [105]:
data["purpose_category"] = data["purpose"].apply(categorize_purpose)

## Исследование данных

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

Сделаем таблицу с сортировкой по кол-ву проценту должников:

In [107]:
# Группируем по количеству детей столбец debt и применяем функции
# count() - кол-во клиентов и sum() - кол-во долгов
children_grouped = data.groupby("children")["debt"].agg(["count", "sum"])
# добавляем в этот датафрейм столбец соотношения столбцов sum и count
children_grouped["ratio"] = children_grouped["sum"] / children_grouped["count"]
# переводим соотношение в %
children_grouped["ratio"] = children_grouped["ratio"].apply("{:.2%}".format)
# переименовываем столбцы
children_grouped = children_grouped.rename(
    columns={"count": "Заёмщиков", "sum": "Должников", "ratio": "Процент должников"}
)
# выводим таблицу с сортировкой по кол-ву проценту должников
children_grouped.sort_values(by="Процент должников")

Unnamed: 0_level_0,Заёмщиков,Должников,Процент должников
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,9,0,0.00%
0,14091,1063,7.54%
3,330,27,8.18%
1,4808,444,9.23%
2,2052,194,9.45%
4,41,4,9.76%


Можно сделать вот так, через функцию, с сортировкой по кол-ву детей:

In [109]:
# Комментарий ревьюера
# Создаем копию датасета, что бы не работать с исходным
temp = data.copy()


# Напишем функцию, так как все задачи аналогичны
def que(category):
    data_temp = temp.pivot_table(
        index=category, values="debt", aggfunc=["count", "sum", "mean"]
    )
    data_temp.columns = [
        "Всего кредитополучателей",
        "Всего должников",
        "Доля должников",
    ]
    # Оформим таблицу цветным градиентом, но можно ее вывести и просто display(data_temp)
    # display(data_temp.style.format("{:.3f}").background_gradient(cmap='Blues', axis=0))
    display(
        data_temp.style.format(
            {
                "Всего кредитополучателей": "{:.0f}",
                "Всего должников": "{:.0f}",
                "Доля должников": "{:.2%}",
            }
        ).background_gradient(cmap="Blues", axis=0)
    )


que("children")

Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14091,1063,7.54%
1,4808,444,9.23%
2,2052,194,9.45%
3,330,27,8.18%
4,41,4,9.76%
5,9,0,0.00%


**Вывод: Судя по данным таблицы, зависимость между количеством детей и возвратом кредита в срок присутствует. Среди заёмщиков без детей процент должников меньше - 7.54%. Семьи без детей не несут дополнительных расходов и своевременно обслуживают свой кредит. У клиентов с детьми более высокая расходная часть семейного бюджета, поэтому и возникают сложности со своевременной выплатой по кредитным обязательствам. Выборки заёмщиков с 3-5 детьми слишком малы для принятия решений, объединим её с соседней.**

In [111]:
# Заменяем значения
replace_values = [3, 4, 5]
replace_with = 2
# data['children'] = data['children'].replace(replace_values, replace_with)
temp["children"] = temp["children"].replace(replace_values, replace_with)
que("children")

Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14091,1063,7.54%
1,4808,444,9.23%
2,2432,225,9.25%


**Между клиентами без детей и клиентами с 1-2 детьми есть значимая разница в контексте возврата кредита.**

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [113]:
def que(category):
    data_temp = temp.pivot_table(
        index=category, values="debt", aggfunc=["count", "sum", "mean"]
    )
    data_temp.columns = [
        "Всего кредитополучателей",
        "Всего должников",
        "Доля должников",
    ]
    display(
        data_temp.style.format(
            {
                "Всего кредитополучателей": "{:.0f}",
                "Всего должников": "{:.0f}",
                "Доля должников": "{:.2%}",
            }
        ).background_gradient(cmap="Greens", axis=0)
    )


que("family_status")

Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2796,273,9.76%
в разводе,1189,84,7.06%
вдовец / вдова,951,63,6.62%
гражданский брак,4134,385,9.31%
женат / замужем,12261,927,7.56%


**Вывод: Зависимость между семейным положением и возвратом кредита в срок есть. Наиболее редко должниками являются вдовцы/вдовы - 6.62%. Наиболее часто - клиенты категории Не женат/не замужем	- 9.76%. Прошлый опыт семейных отношений или оформленные отношения накладывают определенную ответственность и приучают к финансовой дисциплине.** 

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [115]:
income_grouped = data.groupby("total_income_category")["debt"].agg(["count", "sum"])
income_grouped["ratio"] = income_grouped["sum"] / income_grouped["count"]
income_grouped["ratio"] = income_grouped["ratio"].apply("{:.2%}".format)
income_grouped = income_grouped.rename(
    columns={"count": "Заёмщиков", "sum": "Должников", "ratio": "Процент должников"}
)
income_grouped.sort_values(by="Процент должников")

Unnamed: 0_level_0,Заёмщиков,Должников,Процент должников
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,349,21,6.02%
B,5014,354,7.06%
A,25,2,8.00%
C,15921,1353,8.50%
E,22,2,9.09%


**Категория D довольно мала, а категории E и C вообще статистически ничтожны, объединим их с соседними:** 

In [117]:
replace_values = ["D", "E"]
replace_with = "C"
data["total_income_category"] = data["total_income_category"].replace(
    replace_values, replace_with
)
data["total_income_category"] = data["total_income_category"].replace("A", "B")

income_grouped = data.groupby("total_income_category")["debt"].agg(["count", "sum"])
income_grouped["ratio"] = income_grouped["sum"] / income_grouped["count"]
income_grouped["ratio"] = income_grouped["ratio"].apply("{:.2%}".format)
income_grouped = income_grouped.rename(
    columns={"count": "Заёмщиков", "sum": "Должников", "ratio": "Процент должников"}
)
income_grouped.sort_values(by="Процент должников")

Unnamed: 0_level_0,Заёмщиков,Должников,Процент должников
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
B,5039,356,7.06%
C,16292,1376,8.45%


**Вывод: Зависимость между уровнем дохода и возвратом кредита в срок присутствует. Заёмщики с более высоким доходом имеют меньше долгов по кредиту.** 

В задачах, где требуется анализировать несбалансированные выборки можно, делать дополнительный анализ, разбив данные на равные выборки методом `.qcut`.

In [119]:
# Создадим категории дохода с равными выборками
bin_labels_5 = ["E", "D", "C", "B", "A"]
temp["custom_income_category"] = pd.qcut(
    temp["total_income"], q=[0, 0.2, 0.4, 0.6, 0.8, 1], labels=bin_labels_5
)

# Применим фунцию к новому столбцу


def que(category):
    data_temp = temp.pivot_table(
        index=category, values="debt", aggfunc=["count", "sum", "mean"]
    )
    data_temp.columns = [
        "Всего кредитополучателей",
        "Всего должников",
        "Доля должников",
    ]
    data_temp = data_temp.sort_values(by="custom_income_category", ascending=False)
    display(
        data_temp.style.format(
            {
                "Всего кредитополучателей": "{:.0f}",
                "Всего должников": "{:.0f}",
                "Доля должников": "{:.2%}",
            }
        ).background_gradient(cmap="Greens", axis=0)
    )


q = que("custom_income_category")

Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
custom_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,4266,299,7.01%
B,4266,358,8.39%
C,4266,373,8.74%
D,4266,358,8.39%
E,4267,344,8.06%


**В равных выборках по доходу становится видно, что хуже других кредиты вплачивают представители средней выборки по доходам.**

Можно сделать цикл с перебором количества категорий.

In [121]:
# temp = data.copy()
def que1(category):
    data_temp = temp.pivot_table(
        index=category, values="debt", aggfunc=["count", "sum", "mean"]
    )
    data_temp.columns = [
        "Всего кредитополучателей",
        "Всего должников",
        "Доля должников",
    ]
    # Оформим таблицу цветным градиентом, но можно ее вывести и просто display(data_temp)
    # display(data_temp.style.format("{:.3f}").background_gradient(cmap='Blues', axis=0))
    display(
        data_temp.style.format(
            {
                "Всего кредитополучателей": "{:.0f}",
                "Всего должников": "{:.0f}",
                "Доля должников": "{:.2%}",
            }
        ).background_gradient(cmap="Blues", axis=0)
    )


start, stop = 3, 8  # начальное и конечное количество категорий
while start <= stop:
    temp["new_category"] = pd.qcut(temp["total_income"], q=start, precision=0)
    que1("new_category")
    start += 1

Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 119218.0]",7110,580,8.16%
"(119218.0, 172357.0]",7239,627,8.66%
"(172357.0, 2265604.0]",6982,525,7.52%


Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 107507.0]",5333,427,8.01%
"(107507.0, 142594.0]",5450,480,8.81%
"(142594.0, 195842.0]",5216,444,8.51%
"(195842.0, 2265604.0]",5332,381,7.15%


Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 98514.0]",4267,344,8.06%
"(98514.0, 132113.0]",4266,358,8.39%
"(132113.0, 161380.0]",4266,373,8.74%
"(161380.0, 214604.0]",4266,358,8.39%
"(214604.0, 2265604.0]",4266,299,7.01%


Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 92092.0]",3555,285,8.02%
"(92092.0, 119218.0]",3555,295,8.30%
"(119218.0, 142594.0]",3673,327,8.90%
"(142594.0, 172357.0]",3566,300,8.41%
"(172357.0, 228893.0]",3427,276,8.05%
"(228893.0, 2265604.0]",3555,249,7.00%


Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 87287.0]",3048,233,7.64%
"(87287.0, 113563.0]",3047,262,8.60%
"(113563.0, 137465.0]",3047,263,8.63%
"(137465.0, 155314.0]",3047,264,8.66%
"(155314.0, 184554.0]",3047,257,8.43%
"(184554.0, 242009.0]",3047,242,7.94%
"(242009.0, 2265604.0]",3048,211,6.92%


Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 83837.0]",2667,206,7.72%
"(83837.0, 107507.0]",2666,221,8.29%
"(107507.0, 127546.0]",2666,233,8.74%
"(127546.0, 142594.0]",2784,247,8.87%
"(142594.0, 166525.0]",2549,223,8.75%
"(166525.0, 195842.0]",2667,221,8.29%
"(195842.0, 254250.0]",2665,196,7.35%
"(254250.0, 2265604.0]",2667,185,6.94%


Вот, нашлась самая кредито-опасная категория дохода заемщиков, повод для более глубокого анализа.

### Как разные цели кредита влияют на его возврат в срок?

In [122]:
purpose_grouped = data.groupby("purpose_category")["debt"].agg(["count", "sum"])
purpose_grouped["ratio"] = purpose_grouped["sum"] / purpose_grouped["count"]
purpose_grouped["ratio"] = purpose_grouped["ratio"].apply("{:.2%}".format)
purpose_grouped = purpose_grouped.rename(
    columns={"count": "Заёмщиков", "sum": "Должников", "ratio": "Процент должников"}
)
purpose_grouped.sort_values(by="Процент должников")

Unnamed: 0_level_0,Заёмщиков,Должников,Процент должников
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,10751,780,7.26%
проведение свадьбы,2313,183,7.91%
получение образования,3988,369,9.25%
операции с автомобилем,4279,400,9.35%


**Вывод: Кредиты на операции с недвижимостью и проведение свадьбы скорее вернут в срок, чем кредиты на получение образования и операции с автомобилем. Видимо, кредиты на автомобиль и обучение несут дополнительные риски связанные или с возможной аварией, или с проблемами трудоустройства после обучения** 

## Общий вывод

**В ходе выполнения данного проекта были выполнены следующие этапы:** 
* Сделано описание входных данных от банка.
* Обработаны аномальные значения, а именно: отрицательные значения трудового стажа заменены на положительные, удалены аномально большие значения столбца с кол-вом детей.
* Обработаны пропущенные значения: пропуски в ячейках с доходом заполнены медианным значением среди всех записей с тем же типом дохода, в столбце со стажем работы - медианными значениями по каждому типу занятости.
*  Обработаны неявные дубликаты в столбце с образованием — одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Строки были приведены к нижнему регистру. Явные дубликаты были удалены.
* Записи были разделены на категории по доходу и целям кредита. 
* Исследование данных.


**Итоги исследования**
1. Есть зависимость между количеством детей и возвратом кредита в срок. Среди заёмщиков без детей процент должников меньше.
2. Есть зависимость между семейным положением и возвратом кредита в срок. Наиболее редко должниками являются вдовцы/вдовы. Наиболее часто - клиенты категории Не женат/не замужем.
3. Есть зависимость между уровнем дохода и возвратом кредита в срок. В равных выборках по доходу становится видно, что хуже других кредиты вплачивают представители средней выборки по доходам. При этом заёмщики с наболее высоким доходом имеют меньше долгов по кредиту, чем заёмщики с наиболее низким.
4. Разные цели кредита влияют на его возврат в срок.  Кредиты на операции с недвижимостью и проведение свадьбы скорее вернут в срок, чем кредиты на получение образования и операции с автомобилем.

Рекомендации по улучшению сбора данных на основе обнаруженных ошибок: у двух типов занятости (безработные и пенсионеры) получаются аномально большие значения.

На основе полученных данных можно составить портрет наиболее надёжного заёмщика:
* без детей;
* имел опыт супружеских отношений;
* с высоким доходом;
* цель — операции с недвижимостью.