<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Описание-проекта" data-toc-modified-id="Описание-проекта-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Описание проекта</a></span></li><li><span><a href="#Цель-проекта" data-toc-modified-id="Цель-проекта-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Цель проекта</a></span></li><li><span><a href="#Описание-данных" data-toc-modified-id="Описание-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Описание данных</a></span></li><li><span><a href="#План-работы" data-toc-modified-id="План-работы-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>План работы</a></span></li><li><span><a href="#Изучение-общей-информации-о-данных" data-toc-modified-id="Изучение-общей-информации-о-данных-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Изучение общей информации о данных</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Удаление-пропусков-и-аномальных-значений" data-toc-modified-id="Удаление-пропусков-и-аномальных-значений-6.1"><span class="toc-item-num">6.1&nbsp;&nbsp;</span>Удаление пропусков и аномальных значений</a></span></li><li><span><a href="#Изменение-типов-данных" data-toc-modified-id="Изменение-типов-данных-6.2"><span class="toc-item-num">6.2&nbsp;&nbsp;</span>Изменение типов данных</a></span></li><li><span><a href="#Обработка-дубликатов" data-toc-modified-id="Обработка-дубликатов-6.3"><span class="toc-item-num">6.3&nbsp;&nbsp;</span>Обработка дубликатов</a></span></li><li><span><a href="#Категоризация-данных" data-toc-modified-id="Категоризация-данных-6.4"><span class="toc-item-num">6.4&nbsp;&nbsp;</span>Категоризация данных</a></span></li></ul></li><li><span><a href="#Исследование" data-toc-modified-id="Исследование-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Исследование</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

# Исследование надёжности заёмщиков — анализ банковских данных

## Описание проекта

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Цель проекта

Проверить гипотезу: семейное положение и количество детей клиента влияет на факт погашения кредита в срок

## Описание данных

`children` — количество детей в семье \
`days_employed` — общий трудовой стаж в днях \
`dob_years` — возраст клиента в годах \
`education` — уровень образования клиента \
`education_id` — идентификатор уровня образования \
`family_status` — семейное положение \
`family_status_id` — идентификатор семейного положения \
`gender` — пол клиента \
`income_type` — тип занятости \
`debt` — имел ли задолженность по возврату кредитов \
`total_income` — ежемесячный доход \
`purpose` — цель получения кредита

##  План работы

1. Открыть файл с данными и изучить общую информацию
2. Выполнить предобработку данных \
1) Найти и изучить пропущенные значения в столбцах, заполнить пропуски там, где это возможно \
2) Рассмотреть типы данных в каждом столбце, выполнить необходимые преобразования \
3) Изучить уникальные значения и устранить неявные дубликаты \
4) Сделать катекоризацию данных
3. Произвести исследовательский анализ данных, а именно ответить на следующие вопросы: 
   - Есть ли зависимость между количеством детей и возвратом кредита в срок?
   - Есть ли зависимость между семейным положением и возвратом кредита в срок?
   - Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
   - Как разные цели кредита влияют на его возврат в срок?
   - Каковы возможные причины появления пропусков в исходных данных?
   - Почему заполнить пропуски медианным значением — лучшее решение для количественных переменных?
4. Сформулировать общий вывод

## Изучение общей информации о данных

In [1]:
import pandas as pd # импортируем библиотеку pandas

In [2]:
data = pd.read_csv('yandex_bank.csv') # прочитаем файл с данными
data.info() # изучим общую информацию о данных

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
data.isna().sum() # посмотрим на пропуски в данных

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Вывод:** в двух столбцах есть пропущенные значения:
- **total_income** (хранит данные о доходах)
- **days_employed** (хранит данные об общем трудовом стаже в днях)

## Предобработка данных

### Удаление пропусков и аномальных значений
Работа с первым столбцом \
На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца **income_type**.

In [4]:
# заполняем пропуски в данных
for person in data['income_type'].unique():
    data.loc[(data['income_type'] == person)&(data['total_income'].isna()),'total_income'] = \
    data.loc[data['income_type'] == person, 'total_income'].median()
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Работа со вторым столбцом \
В данных встречаются артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом являются отрицательное количество дней трудового стажа в столбце **days_employed**.

In [5]:
# обрабатываем аномалии
data['days_employed'] = data['days_employed'].abs()

In [6]:
# изучаем медианные значения
data.groupby('income_type')['days_employed'].median()

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

**Вывод:** у двух типов (безработные и пенсионеры) получаются аномально большие значения. Оставим их как есть, так как они не понадобятся для исследования.

In [7]:
# заполняем пропуски в столбце days_employed медианными значениями по каждому типу занятости income_type
for person in data['income_type'].unique():
    data.loc[(data['income_type'] == person)&(data['days_employed'].isna()),'days_employed'] = \
    data.loc[data['income_type'] == person, 'days_employed'].median()

In [8]:
# посмотрим на уникальные значения столбца children
print(data['children'].unique())

[ 1  0  3  2 -1  4 20  5]


In [9]:
# удалим аномальные значения из столбца children
data = data.loc[(data['children']!=20)&(data['children']!=-1)]

In [10]:
# проверим сколько осталось пропусков
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

**Вывод:** все пропуски и аномалии обработаны

### Изменение типов данных

In [11]:
# изменим тип данных
pd.set_option('chained_assignment', None)
data.loc[:,'total_income'] = data['total_income'].astype(int)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


In [12]:
data.info() # изучим информацию о данных

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21402 non-null  int64  
 1   days_employed     21402 non-null  float64
 2   dob_years         21402 non-null  int64  
 3   education         21402 non-null  object 
 4   education_id      21402 non-null  int64  
 5   family_status     21402 non-null  object 
 6   family_status_id  21402 non-null  int64  
 7   gender            21402 non-null  object 
 8   income_type       21402 non-null  object 
 9   debt              21402 non-null  int64  
 10  total_income      21402 non-null  int32  
 11  purpose           21402 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод:** тип данных теперь везде правильный

### Обработка дубликатов

In [13]:
data['education'] = data['education'].str.lower() # приведем столбец к нижнему регистру
data.duplicated().sum() # посмотрим на количество дубликатов

71

In [14]:
data = data.drop_duplicates().reset_index(drop=True) # удалим явные дубликаты

**Вывод:** явных дубликатов в данных теперь нет

### Категоризация данных

Создадим следующие категории на основании доходов клиентов:
- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [15]:
# напишем функцию для создания категорий
def categorize_income(income):
    if income <= 30000:
        return 'E'
    if income <= 50000:
        return 'D'
    if income <= 200000:
        return 'C'
    if income <= 1000000:
        return 'B'
    return 'A'
data['total_income_category'] = data['total_income'].apply(categorize_income) # применим функцию
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C


In [16]:
# посмотрим на уникальные значения столбца purpose
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим следующие категории на основании цели клиентов:
- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

In [17]:
# напишем функцию для создания категорий
def categorize_purpose(purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'
    if 'недвиж' in purpose:
        return 'операции с недвижимостью'
    if 'жиль' in purpose:
        return 'операции с недвижимостью'
    if 'свад' in purpose:
        return 'проведение свадьбы'
    return 'получение образования'
data['purpose_category'] = data['purpose'].apply(categorize_purpose) # применим функцию
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


**Вывод:** пропуски и аномальные значения были обработаны. Данные очищены от дубликатов, а также везде теперь правильные типы данных. Была сделана категоризация данных. Данные готовы для дальнейшего анализа

## Исследование

**Вопрос 1** Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [18]:
# напишем функцию для группировки данных
pd.options.display.float_format = '{:,.1%}'.format
def function(column):
    data_grouped = data.groupby(column)['debt'].agg(['count','sum','mean'])
    data_grouped = data_grouped.rename(columns={'count': 'number_of_borrowers', 'sum':'number_of_debtors', \
                                                        'mean':'share_of_debtors'})
    data_grouped = data_grouped.sort_values(by='share_of_debtors', ascending = False)
    return data_grouped

In [19]:
children_grouped = function('children')
children_grouped

Unnamed: 0_level_0,number_of_borrowers,number_of_debtors,share_of_debtors
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,41,4,9.8%
2,2052,194,9.5%
1,4808,444,9.2%
3,330,27,8.2%
0,14091,1063,7.5%
5,9,0,0.0%


**Вывод:** При анализе данных выявлено, что чаще всего берут кредит люди, у которых нет детей, рост количества детей негативно влияет на желание человека влезть в долги. Однако, нельзя однозначно утверждать, что существует зависимость между количеством детей и возвратом кредитом в срок, так как:
- Большая разница в количестве заемщиков в разных группах
- Недостаточно данных, чтобы проанализировать поведение людей с 5 детьми 
- Странно, что люди, у которых есть 3 ребенка отдают кредиты лучше, чем те, у кого 2 или 1 ребенок, или нет детей

Если не брать во внимание группу с 5 детьми, разница между минимальным и максимальным значением составляет 23,5%

**Вопрос 2** Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [20]:
family_grouped = function('family_status')
family_grouped

Unnamed: 0_level_0,number_of_borrowers,number_of_debtors,share_of_debtors
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2796,273,9.8%
гражданский брак,4134,385,9.3%
женат / замужем,12261,927,7.6%
в разводе,1189,84,7.1%
вдовец / вдова,951,63,6.6%


**Вывод:** При анализе данных выявлено, что чаще всего берут кредит люди в браке, скорее всего это связано с тем, что им нужно покупать что-то для семьи (недвижимость, автотранспорт). Реже всего берут кредит вдовцы, возможно это связано с тем, что такие люди получают наследство и не нуждаются в дополнительных деньгах.

Я считаю, что есть зависимость между семейным положением и возвратом кредита в срок, так как:
- хуже всего возвращают долги свободные люди, которые раньше не были в отношениях, это может быть связано с психологическим аспектом (людям, которые не были в отношениях не нужно копить и откладывать деньги, они живут в свое удовольствие)
- чуть лучше обстоит ситуация с теми, кто на данный момент состоит в отношениях (брак или гражданский брак), скорее всего это связано с тем, что много трат уходит на семейные расходы
- лучше всего возвращают долги свободные люди, которые раньше были в отношениях (вдовы могли получить наследство, а разведенные отсудить имущество у своего партнера)

Разница между минимальным и максимальным значением составляет 32,7%

**Вопрос 3** Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [21]:
income_grouped = function('total_income_category')
income_grouped

Unnamed: 0_level_0,number_of_borrowers,number_of_debtors,share_of_debtors
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,22,2,9.1%
C,15921,1353,8.5%
A,25,2,8.0%
B,5014,354,7.1%
D,349,21,6.0%


У нас были следующие категории на основании доходов клиентов:
- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

**Вывод:** При анализе данных выявлено, что чаще всего берут кредит люди категории 'С' (средний доход), реже всего берут кредит люди из категорий 'А' и 'Е' (самый высокий и самый низкий доход). Это можно объяснить тем, что людям у которых слишком много денег кредиты не нужны, а те, у кого денег совсем нет - боятся их брать.

Я считаю, что нельзя однозначно утверждать, что существует зависимость между уровнем дохода и возвратом кредита в срок, так как:
- Большая разница в количестве заемщиков в разных группах
- Недостаточно данных, чтобы проанализировать поведение людей из групп 'А' и 'Е'
- Странно, что люди из категории B отдают долги лучше, чем люди из категории 'А' и хуже, чем люди из категории 'D'

**Вопрос 4** Как разные цели кредита влияют на его возврат в срок?

In [22]:
purpose_grouped = function('purpose_category')
purpose_grouped

Unnamed: 0_level_0,number_of_borrowers,number_of_debtors,share_of_debtors
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,4279,400,9.3%
получение образования,3988,369,9.3%
проведение свадьбы,2313,183,7.9%
операции с недвижимостью,10751,780,7.3%


**Вывод:** При анализе данных выявлено, что чаще всего берут кредиты на операции с недвижимостью, реже всего - на проведение свадьбы.

Я считаю, что есть зависимость между целью кредита и возвратом кредита в срок, так как:
- Хуже всего отдают те кредиты, которые были взяты на покупку автомобиля и получение образования
- Лучше всего обстоит ситуация с теми, кто брал деньги на операции с недвижимостью

**Вопрос 5** Каковы возможные причины появления пропусков в исходных данных?

В исходных данных были пропуски в двух столбцах:
- **total_income** (хранит данные о доходах)
- **days_employed** (хранит данные об общем трудовом стаже в днях)

Я считаю, что пропуски были `неслучайные`. Скорее всего заемщики нарочно не указали свой уровень дохода и трудовой стаж, например из-за того, что понимали, что маленький трудовой стаж и зарплата могут негативно повлиять на решение банка. Или из-за того, что их доход/стаж не соответствует условиям выдачи кредита для определенной цели. Отсутствующие значения зависят как от характера вопроса, так и от особенности самого заемщика, то есть, значений переменных в других столбцах.

**Вопрос 6** Почему заполнить пропуски медианным значением — лучшее решение для количественных переменных?

**Среднее арифметическое** — это сумма всех значений, поделённая на количество значений. \
**Медиана** — это такое число в выборке, что ровно половина элементов больше него, а другая половина — меньше. 

Среднее значение некорректно характеризует данные, когда некоторые значения сильно выделяются среди большинства.

Для примера возьмем данные из **Вопрос 4** и проанализируем столбец **number_of_borrowers**. Предположим, что изначально не было людей, которые совершали операции с недвижимостью, а потом они появились. Посчитаем среднее и медиану:

In [23]:
number = pd.Series([4279, 3988, 2313])
new_number = pd.Series([4279, 3988, 2313, 10751])
number_mean = number.mean()
new_number_mean = new_number.mean()
print(f'Среднее значение выросло на {new_number_mean / number_mean - 1:.0%}')

Среднее значение выросло на 51%


In [24]:
number_median = number.median()
new_number_median = new_number.median()
print(f'Медиана выросла на {new_number_median / number_median - 1:.0%}')

Медиана выросла на 4%


Таким образом, когда в выборке присутствуют выдающиеся значения, лучше использовать медиану.

## Общий вывод

Таким образом, гипотеза, что уровень дохода и количество детей клиента влияет на факт погашения кредита в срок подтвердилась лишь частично. Однако, можно утверждать, что разные цели кредита и семейное положение влияют на срок возврата долга. Самыми надежными заемщиками можно назвать свободных людей без детей, которые берут кредит на операции с недвижимостью.