# Исследование надёжности заёмщиков

**Заказчик** — кредитный отдел банка. Нужно выяснить, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели *кредитного скоринга* — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Описание данных:**
children — количество детей в семье;
days_employed — общий трудовой стаж в днях;
dob_years — возраст клиента в годах;
education — уровень образования клиента;
education_id — идентификатор уровня образования;
family_status — семейное положение;
family_status_id — идентификатор семейного положения;
gender — пол клиента;
income_type — тип занятости;
debt — имел ли задолженность по возврату кредитов;
total_income — ежемесячный доход;
purpose — цель получения кредита.

## Обзор данных

Составим первое представление о данных.

Импортируем библиотеку — `pandas`, прочитаем — `datasets` и сохраним его в переменной — `data`:

In [53]:
import pandas as pd # импорт библиотеку pandas
data = pd.read_csv('credit_project_dataset.csv') # чтение файла с данными и сохранение в data

Выведем на экран первые двадцать строк `data`:

In [54]:
data.head(20) # получение первых 20 строк data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


|  | children | days\_employed | dob\_years | education | education\_id | family\_status | family\_status\_id | gender | income\_type | debt | total\_income | purpose |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| 0 | 1 | -8437.673028 | 42 | высшее | 0 | женат / замужем | 0 | F | сотрудник | 0 | 253875.639453 | покупка жилья |
| 1 | 1 | -4024.803754 | 36 | среднее | 1 | женат / замужем | 0 | F | сотрудник | 0 | 112080.014102 | приобретение автомобиля |
| 2 | 0 | -5623.422610 | 33 | Среднее | 1 | женат / замужем | 0 | M | сотрудник | 0 | 145885.952297 | покупка жилья |
| 3 | 3 | -4124.747207 | 32 | среднее | 1 | женат / замужем | 0 | M | сотрудник | 0 | 267628.550329 | дополнительное образование |
| 4 | 0 | 340266.072047 | 53 | среднее | 1 | гражданский брак | 1 | F | пенсионер | 0 | 158616.077870 | сыграть свадьбу |
| 5 | 0 | -926.185831 | 27 | высшее | 0 | гражданский брак | 1 | M | компаньон | 0 | 255763.565419 | покупка жилья |
| 6 | 0 | -2879.202052 | 43 | высшее | 0 | женат / замужем | 0 | F | компаньон | 0 | 240525.971920 | операции с жильем |
| 7 | 0 | -152.779569 | 50 | СРЕДНЕЕ | 1 | женат / замужем | 0 | M | сотрудник | 0 | 135823.934197 | образование |
| 8 | 2 | -6929.865299 | 35 | ВЫСШЕЕ | 0 | гражданский брак | 1 | F | сотрудник | 0 | 95856.832424 | на проведение свадьбы |
| 9 | 0 | -2188.756445 | 41 | среднее | 1 | женат / замужем | 0 | M | сотрудник | 0 | 144425.938277 | покупка жилья для семьи |
| 10 | 2 | -4171.483647 | 36 | высшее | 0 | женат / замужем | 0 | M | компаньон | 0 | 113943.491460 | покупка недвижимости |
| 11 | 0 | -792.701887 | 40 | среднее | 1 | женат / замужем | 0 | F | сотрудник | 0 | 77069.234271 | покупка коммерческой недвижимости |
| 12 | 0 | NaN | 65 | среднее | 1 | гражданский брак | 1 | M | пенсионер | 0 | NaN | сыграть свадьбу |
| 13 | 0 | -1846.641941 | 54 | неоконченное высшее | 2 | женат / замужем | 0 | F | сотрудник | 0 | 130458.228857 | приобретение автомобиля |
| 14 | 0 | -1844.956182 | 56 | высшее | 0 | гражданский брак | 1 | F | компаньон | 1 | 165127.911772 | покупка жилой недвижимости |
| 15 | 1 | -972.364419 | 26 | среднее | 1 | женат / замужем | 0 | F | сотрудник | 0 | 116820.904450 | строительство собственной недвижимости |
| 16 | 0 | -1719.934226 | 35 | среднее | 1 | женат / замужем | 0 | F | сотрудник | 0 | 289202.704229 | недвижимость |
| 17 | 0 | -2369.999720 | 33 | высшее | 0 | гражданский брак | 1 | M | сотрудник | 0 | 90410.586745 | строительство недвижимости |
| 18 | 0 | 400281.136913 | 53 | среднее | 1 | вдовец / вдова | 2 | F | пенсионер | 0 | 56823.777243 | на покупку подержанного автомобиля |
| 19 | 0 | -10038.818549 | 48 | СРЕДНЕЕ | 1 | в разводе | 3 | F | сотрудник | 0 | 242831.107982 | на покупку своего автомобиля |

Получим общую информацию о `data` c помощью метода — `info()`:

In [55]:
data.info() # получение общей информации о данных в data

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


| | |
| --- | --- |
| **Column** | **Non-Null Count** | **Dtype** |
| --- | --- | --- |
| children | 21525 | int64 |
| days_employed | 19351 | float64 |
| dob_years | 21525 | int64 |
| education | 21525 | object |
| education_id | 21525 | int64 |
| family_status | 21525 | object |
| family_status_id | 21525 | int64 |
| gender | 21525 | object |
| income_type | 21525 | object |
| debt | 21525 | int64 |
| total_income | 19351 | float64 |
| purpose | 21525 | object |
| --- | --- | --- |
| **dtypes:** float64(2), int64(5), object(5) | **memory usage:** 2.0+ MB |

## Предобработка данных

### Удаление пропусков

Выведем количество пропущенных значений для каждого столбца:

In [56]:
data.isna().sum() # подсчёт пропусков

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

|  | &lt;unnamed&gt; |
| :--- | :--- |
| children | 0 |
| days\_employed | 2174 |
| dob\_years | 0 |
| education | 0 |
| education\_id | 0 |
| family\_status | 0 |
| family\_status\_id | 0 |
| gender | 0 |
| income\_type | 0 |
| debt | 0 |
| total\_income | 2174 |
| purpose | 0 |

В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце мы обработаем на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. 

На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце будем медианным значением по каждому типу из столбца `income_type`:

In [57]:
for t in data['income_type'].unique():
    # перебор уникальных значения столбца 'income_type'
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()
    # Выбираем строки, где значение столбца 'income_type' равно текущему значению переменной 't' и значение столбца 'total_income' отсутствует,
    # заменяем отсутствующие значения столбца 'total_income' медианой значений этого столбца для текущего значения переменной 't'.

### Обработка аномальных значений

В данных могут встречаться артефакты, такой аномалией будет отрицательное количество дней трудового стажа в столбце `days_employed`.

Обработаем значения в этом столбце, заменим все отрицательные значения положительными с помощью метода `abs()`:

In [58]:
data['days_employed'] = data['days_employed'].abs() 
# замена всех отрицательных значений в столбце 'days_employed' на их абсолютные значения

Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях:

In [59]:
data.groupby('income_type')['days_employed'].agg('median')
# вычисление медианного количества дней работы для каждого типа дохода

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

| <br/>income\_type | days\_employed<br/> |
| :--- | :--- |
| безработный | 366413.652744 |
| в декрете | -3296.759962 |
| госслужащий | -2689.368353 |
| компаньон | -1547.382223 |
| пенсионер | 365213.306266 |
| предприниматель | -520.848083 |
| сотрудник | -1574.202821 |
| студент | -578.751554 |

У двух типов (безработные и пенсионеры) получаются аномально большие значения. В другом проекте мы бы исправили данные значения, но в этом это не требуется. Тем более этот столбец не понадобится нам для нашего исследования.

Выведем перечень уникальных значений столбца `children`:

In [60]:
data['children'].unique() # возвращение уникальных значений столбца 'children'

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

|  | 0 |
| :--- | :--- |
| 0 | 1 |
| 1 | 0 |
| 2 | 3 |
| 3 | 2 |
| 4 | 4 |
| 5 | 5 |

В столбце `children` есть два аномальных значения. 

Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`:

In [61]:
data = data[(data['children'] != -1) & (data['children'] != 20)] 
# фильтрация данных, исключая строки с количеством детей -1 и 20

Для проверки ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены:

In [62]:
data['children'].unique() # возвращение уникальных значений столбца 'children'

array([1, 0, 3, 2, 4, 5], dtype=int64)

|  | 0 |
| :--- | :--- |
| 0 | 1 |
| 1 | 0 |
| 2 | 3 |
| 3 | 2 |
| 4 | 4 |
| 5 | 5 |

### Удаление пропусков (продолжение)

Заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`:

In [63]:
for t in data['income_type'].unique(): 
# перебор уникальных значений столбца 'income_type'
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()
# Выбираем строки, где значение столбца 'income_type' равно текущему значению переменной 't' и значение столбца 'days_employed' отсутствует,
# заменяем отсутствующие значения столбца 'days_employed' медианой значений этого столбца для текущего значения переменной 't'.

Убедимся, что все пропуски заполнены:

In [64]:
data.isna().sum() # подсчёт пропусков

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

|  | &lt;unnamed&gt; |
| :--- | :--- |
| children | 0 |
| days\_employed | 0 |
| dob\_years | 0 |
| education | 0 |
| education\_id | 0 |
| family\_status | 0 |
| family\_status\_id | 0 |
| gender | 0 |
| income\_type | 0 |
| debt | 0 |
| total\_income | 0 |
| purpose | 0 |
| total\_income\_category | 0 |
| purpose\_category | 0 |

### Изменение типов данных

Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`:

In [65]:
data['total_income'] = data['total_income'].astype(int) 
# преобразование столбца 'total_income' в тип данных 'int'

### Обработка дубликатов

Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведём их к нижнему регистру, и проверим остальные столбцы:

In [66]:
data['education'] = data['education'].str.lower() 
# перевод всех значений в столбце 'education' в строчный формат и преобразование их в нижний регистр

Выведем на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их:

In [67]:
data.duplicated().sum() # подсчёт строк-дубликатов

71

In [68]:
data = data.drop_duplicates() # удаление строк дубликатов

### Категоризация данных

На основании диапазонов, указанных заказчиком ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

Например, кредитополучателю с доходом 25000 нужно назначим категорию `'E'`, а клиенту, получающему 235000, — `'B'`. 

Используем собственную функцию с именем `categorize_income()` и метод `apply()`:

In [69]:
def categorize_income(income): # вызов функции 'categorize_income()'
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [70]:
data['total_income_category'] = data['total_income'].apply(categorize_income)
# применение функции 'categorize_income' к столбцу 'total_income' и создание нового столбца 'total_income_category'

Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`:

In [71]:
data['purpose'].unique() # возвращение уникальных значений столбца 'purpose'

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

|  | 0 |
| :--- | :--- |
| 0 | покупка жилья |
| 1 | приобретение автомобиля |
| 2 | дополнительное образование |
| 3 | сыграть свадьбу |
| 4 | операции с жильем |
| 5 | образование |
| 6 | на проведение свадьбы |
| 7 | покупка жилья для семьи |
| 8 | покупка недвижимости |
| 9 | покупка коммерческой недвижимости |
| 10 | покупка жилой недвижимости |
| 11 | строительство собственной недвижимости |
| 12 | недвижимость |
| 13 | строительство недвижимости |
| 14 | на покупку подержанного автомобиля |
| 15 | на покупку своего автомобиля |
| 16 | операции с коммерческой недвижимостью |
| 17 | строительство жилой недвижимости |
| 18 | жилье |
| 19 | операции со своей недвижимостью |
| 20 | автомобили |
| 21 | заняться образованием |
| 22 | сделка с подержанным автомобилем |
| 23 | получение образования |
| 24 | автомобиль |
| 25 | свадьба |
| 26 | получение дополнительного образования |
| 27 | покупка своего жилья |
| 28 | операции с недвижимостью |
| 29 | получение высшего образования |
| 30 | свой автомобиль |
| 31 | сделка с автомобилем |
| 32 | профильное образование |
| 33 | высшее образование |
| 34 | покупка жилья для сдачи |
| 35 | на покупку автомобиля |
| 36 | ремонт жилью |
| 37 | заняться высшим образованием |

Создадим функцию, которая на основании данных из столбца `purpose` сформируем новый столбец `purpose_category`, в который войдут следующие категории:

- `'операции с автомобилем'`;
- `'операции с недвижимостью'`;
- `'проведение свадьбы'`;
- `'получение образования'`.

Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.

Используем собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучим данные в столбце `purpose` и определим, какие подстроки помогут нам правильно определить категорию:

In [72]:
def categorize_purpose(row): # вызов функции 'categorize_purpose()'
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [73]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
# применение функции 'categorize_purpose' к столбцу 'purpose' и создание нового столбца 'purpose_category'

### Исследование данных и ответы на вопросы заказчика

#### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [74]:
debt_and_children = pd.DataFrame() # создание нового DataFrame

In [75]:
debt_and_children['sum_debt_and_children'] = data.groupby('children')['debt'].sum() 
# запись в новый столбец сумму долгов по 'children'
debt_and_children['count_debt_and_children'] = data.groupby('children')['debt'].count() # запись в новый столбец количества долгов по 'children'
debt_and_children['result_debt_and_children'] = debt_and_children['sum_debt_and_children'] / debt_and_children['count_debt_and_children'] # запись в новый столбец среднего долга  

In [76]:
debt_and_children.sort_values('result_debt_and_children', ascending = True) 
# сортировка в порядке возрастания

Unnamed: 0_level_0,sum_debt_and_children,count_debt_and_children,result_debt_and_children
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,0,9,0.0
0,1063,14091,0.075438
3,27,330,0.081818
1,444,4808,0.092346
2,194,2052,0.094542
4,4,41,0.097561


**Вывод:**

| <br/>children | sum\_debt\_and\_children<br/> | count\_debt\_and\_children<br/> | result\_debt\_and\_children<br/> |
| :--- | :--- | :--- | :--- |
| 5 | 0 | 9 | 0.000000 |
| 0 | 1063 | 14091 | 0.075438 |
| 3 | 27 | 330 | 0.081818 |
| 1 | 444 | 4808 | 0.092346 |
| 2 | 194 | 2052 | 0.094542 |
| 4 | 4 | 41 | 0.097561 |

На основании данных таблицы можно сделать вывод о том, что возможно существует зависимость между количеством детей и вероятностью просрочки кредита. Однако этот вывод необходимо подтвердить с помощью более обширной выборки, в которой будут представлены категории с большим количеством детей. В частности, необходимо увеличить размер выборки по категориям с 3-5 детьми. Это можно сделать, например, увеличив объём выборки в целом или проведя отдельный опрос среди людей с большим количеством детей.

#### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [77]:
debt_and_status = pd.DataFrame() # создание нового DataFrame

In [78]:
debt_and_status['sum_debt_and_status'] = data.groupby('family_status')['debt'].sum() # запись в новый столбец количества долгов по 'family_status'
debt_and_status['count_debt_and_status'] = data.groupby('family_status')['debt'].count() # запись в новый столбец суммы долгов по 'family_status'
debt_and_status['result_debt_and_status'] = debt_and_status['sum_debt_and_status'] / debt_and_status['count_debt_and_status'] # запись в новый столбец среднего долга

In [79]:
debt_and_status.sort_values('result_debt_and_status', ascending = True) 
# сортировка в порядке возрастания

Unnamed: 0_level_0,sum_debt_and_status,count_debt_and_status,result_debt_and_status
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,63,951,0.066246
в разводе,84,1189,0.070648
женат / замужем,927,12261,0.075606
гражданский брак,385,4134,0.09313
Не женат / не замужем,273,2796,0.097639


**Вывод:**

| <br/>family\_status | sum\_debt\_and\_status<br/> | count\_debt\_and\_status<br/> | result\_debt\_and\_status<br/> |
| :--- | :--- | :--- | :--- |
| вдовец / вдова | 63 | 951 | 0.066246 |
| в разводе | 84 | 1189 | 0.070648 |
| женат / замужем | 927 | 12261 | 0.075606 |
| гражданский брак | 385 | 4134 | 0.093130 |
| Не женат / не замужем | 273 | 2796 | 0.097639 |

Присутствует зависимость между семейным положением и возвратом кредита в срок. В целом, люди, состоящие в браке, имеют более 
высокий процент просрочек, чем люди, не состоящие в браке. Это может быть связано с тем, что у семей, состоящих в браке, обычно больше финансовых обязательств, чем у людей, не состоящих в браке. К таким обязательствам могут относиться расходы на содержание семьи, образование детей, жильё.

Однако есть и исключения из этой тенденции. Так, люди, овдовевшие или развёдшиеся, имеют более низкий процент просрочек, 
чем люди, состоящие в браке. Это может быть связано с тем, что эти люди, как правило, имеют более высокий уровень ответственности и финансовой дисциплины, чем люди, которые никогда не состояли в браке.

Таким образом, можно сделать вывод, что семейное положение является фактором, который может повлиять на вероятность просрочки кредита. Однако этот фактор не является единственным и важным. На вероятность просрочки могут также влиять другие факторы, такие как уровень дохода, уровень образования, наличие детей.

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [80]:
debt_and_income = pd.DataFrame() # создание нового DataFrame

In [81]:
debt_and_income['sum_debt_and_income'] = data.groupby('total_income_category')['debt'].sum() # запись в новый столбец количества долгов по 'total_income_category'
debt_and_income['count_debt_and_income'] = data.groupby('total_income_category')['debt'].count() # запись в новый столбец суммы долгов по 'total_income_category'
debt_and_income['result_debt_and_income'] = debt_and_income['sum_debt_and_income'] / debt_and_income['count_debt_and_income'] # запись в новый столбец среднего долга

In [82]:
debt_and_income.sort_values('result_debt_and_income', ascending = True) 
# сортировка в порядке возрастания

Unnamed: 0_level_0,sum_debt_and_income,count_debt_and_income,result_debt_and_income
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,21,349,0.060172
B,354,5014,0.070602
A,2,25,0.08
C,1353,15921,0.084982
E,2,22,0.090909


**Вывод:**

| <br/>total\_income\_category | sum\_debt\_and\_income<br/> | count\_debt\_and\_income<br/> | result\_debt\_and\_income<br/> |
| :--- | :--- | :--- | :--- |
| D | 21 | 349 | 0.060172 |
| B | 354 | 5014 | 0.070602 |
| A | 2 | 25 | 0.080000 |
| C | 1353 | 15921 | 0.084982 |
| E | 2 | 22 | 0.090909 |

На основании данных таблицы можно сделать вывод о том, что возможно существует зависимость между уровнем дохода и вероятностью просрочки кредита. Однако этот вывод необходимо подтвердить с помощью более обширной выборки, в которой будут представлены категории с меньшим размером выборки. Это можно сделать, например, увеличив объём выборки в целом или проведя отдельный опрос среди людей с доходом в этих категориях.

#### Как разные цели кредита влияют на его возврат в срок?

In [83]:
debt_and_purpose = pd.DataFrame() # создание нового DataFrame

In [84]:
debt_and_purpose['sum_debt_and_purpose'] = data.groupby('purpose_category')['debt'].sum() # запись в новый столбец количества долгов по 'purpose_category'
debt_and_purpose['count_debt_and_purpose'] = data.groupby('purpose_category')['debt'].count() # запись в новый столбец суммы долгов по 'purpose_category'
debt_and_purpose['result_debt_and_purpose'] = debt_and_purpose['sum_debt_and_purpose'] / debt_and_purpose['count_debt_and_purpose'] # запись в новый столбец среднего долга

In [85]:
debt_and_purpose.sort_values('result_debt_and_purpose', ascending = True) 
# сортировка в порядке возрастания

Unnamed: 0_level_0,sum_debt_and_purpose,count_debt_and_purpose,result_debt_and_purpose
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,780,10751,0.072551
проведение свадьбы,183,2313,0.079118
получение образования,369,3988,0.092528
операции с автомобилем,400,4279,0.09348


**Вывод:**

| <br/>purpose\_category | sum\_debt\_and\_purpose<br/> | count\_debt\_and\_purpose<br/> | result\_debt\_and\_purpose<br/> |
| :--- | :--- | :--- | :--- |
| операции с недвижимостью | 780 | 10751 | 0.072551 |
| проведение свадьбы | 183 | 2313 | 0.079118 |
| получение образования | 369 | 3988 | 0.092528 |
| операции с автомобилем | 400 | 4279 | 0.093480 |

Присутствует зависимость между целью кредита и возвратом кредита в срок. В целом, люди, которые берут кредиты на более важные и долгосрочные цели, более ответственно относятся к своим обязательствам и имеют более низкий процент просрочек.

## Итоги исследования

На основании проведенного анализа можно сделать вывод о том, что существует зависимость между вероятностью просрочки кредита и следующими факторами: 

* Семейное положение - люди, которые не состояли в браке, имеющие 4 детей, находящиеся в гражданском браке, имеют более высокую вероятность просрочки кредита, чем люди, бывшие в браке, имеющие 0-3 детей, находящиеся в официальном браке. 
* Доход - люди с низким доходом имеют более высокую вероятность просрочки кредита, чем люди с высоким доходом. 
* Цель кредита - люди, берущие кредит на образование или покупку автомобиля, имеют более высокую вероятность просрочки кредита, чем люди, берущие кредит на недвижимость или создание семьи. 

Следует отметить, что связь между этими факторами и вероятностью просрочки кредита не является строгой. В каждом конкретном случае необходимо учитывать индивидуальные обстоятельства заёмщика, такие как его образ жизни, финансовые привычки. 

Важно отметить, что в некоторых случаях вывод о наличии зависимости между фактором и вероятностью просрочки кредита может быть неточным из-за маленького размера выборки по этой категории.