# Исследование надежности заемщиков


Из крединтного отдела банка получена статистика платёжеспособности клиентов. О качестве данных ничего не известно. В проекте проводится проверка данных на ошибки (пропуски, дубликаты), оценка их влияния на исследование, осуществляется предобработка самых критичных ошибок. Очищенные данные используются для выявления взаимосвязи между платёжеспособностью клиентов и их семейным положением, наличием и количеством количеством их детей.

# Цель исследования:

На основе статистических данных банка-заказчика проверить гипотезы:

- Количество детей влияет на возврат кредита в срок.
- Между семейным положением и возвратом кредита в срок существует зависимость.
- Уровень дохода влияет на возврат кредита в срок.
- Существует зависимость между целью кредита и его возвратом в срок.

## Знакомство с данными

### Импорт библиотек

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

### Первые 20 строк таблицы

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


### Информация о таблице

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

#### Количество пропущенных значений для каждого столбца

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В двух столбцах есть пропущенные значения. Один из них — days_employed. Пропуски в этом столбце обработаем на следующем этапе. Другой столбец с пропущенными значениями — total_income — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца income_type. Например, у человека с типом занятости сотрудник пропуск в столбце total_income должен быть заполнен медианным доходом среди всех записей с тем же типом.

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

#### В данных могут встречаются аномалии такие как отрицательное количество дней трудового стажа в столбце days_employed

In [6]:
data['days_employed'] = data['days_employed'].abs()

#### Для каждого типа занятости выведем медианное значение трудового стажа days_employed в днях

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения, около 100 лет, похоже на значения-заглушки, они не повлияют на результаты исследования, поэтому оставим как есть

#### Выведем перечень уникальных значений столбца children

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

В столбце children есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма data

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]
data.info()#посмотрим сколько строк осталось в таблице

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21402 non-null  int64  
 1   days_employed     19240 non-null  float64
 2   dob_years         21402 non-null  int64  
 3   education         21402 non-null  object 
 4   education_id      21402 non-null  int64  
 5   family_status     21402 non-null  object 
 6   family_status_id  21402 non-null  int64  
 7   gender            21402 non-null  object 
 8   income_type       21402 non-null  object 
 9   debt              21402 non-null  int64  
 10  total_income      21402 non-null  float64
 11  purpose           21402 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

#### Заполним пропуски в столбце days_employed медианными значениями по каждого типа занятости income_type

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

 #### Заменим вещественный тип данных в столбце total_income на целочисленный

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

#### Обработаем неявные дубликаты в столбце education. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв

In [14]:
data['education'] = data['education'].str.lower()

####  Выведем на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их.

In [15]:
data.duplicated().sum()

71

In [16]:
data = data.drop_duplicates()

### Категоризация данных

На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`.

In [17]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

#### Выведем на экран перечень уникальных целей взятия кредита из столбца purpose.

In [19]:
data['purpose'].value_counts()

свадьба                                   790
на проведение свадьбы                     763
сыграть свадьбу                           760
операции с недвижимостью                  672
покупка коммерческой недвижимости         658
покупка жилья для сдачи                   649
операции с жильем                         647
операции с коммерческой недвижимостью     645
жилье                                     641
покупка жилья                             640
покупка жилья для семьи                   637
недвижимость                              631
строительство собственной недвижимости    628
операции со своей недвижимостью           623
строительство жилой недвижимости          620
покупка своего жилья                      619
строительство недвижимости                619
покупка недвижимости                      616
ремонт жилью                              604
покупка жилой недвижимости                602
на покупку своего автомобиля              504
заняться высшим образованием      

#### Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

## Исследование данных и ответы на вопросы

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [22]:
children_pivot = data.pivot_table(index='children', values='debt', aggfunc = ['count',  'sum', 'mean'])
children_pivot
#создаем сводную таблицу, где строки - количество детей заемщика 
#столбец 'count debt' - количество заемщиков в данной категории
#столбец 'sum debt' - количество должников в данной категории
#столбец 'mean debt' - отношение должников к общему числу заемщиков данной категории

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14091,1063,0.075438
1,4808,444,0.092346
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


**Вывод:** 
Доля заемщиков с 3, 4 и 5 детьми крайне мала (менее 2%), ввиду малой выборки для данных категорий, результаты анализа могут быть некорректными.
Доля заемщиков, не имеющих детей около двух третей от общего числа заемщиков, при этом процент должников в этой группе самый низкий - 7.5%.
Для заемщиков с 1 и 2 детьми доля должников заметно выше 9.2% и 9.4% соттветственно, при том что доля таких заемщиков в общей сложности составляет только треть от общего числа.
Наиболее надежные заемщики - не имеющие детей.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [23]:
family_status_pivot = data.pivot_table(index='family_status', values='debt', aggfunc = ['count', 'sum','mean'])
family_status_pivot
#создаем сводную таблицу, где строки - семейный статус заемщика 
#столбец 'count debt' - количество заемщиков в данной категории
#столбец 'sum debt' - количество должников в данной категории
#столбец 'mean debt' - отношение должников к общему числу заемщиков данной категории

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2796,273,0.097639
в разводе,1189,84,0.070648
вдовец / вдова,951,63,0.066246
гражданский брак,4134,385,0.09313
женат / замужем,12261,927,0.075606


**Вывод:** 
Самая обширная категория заемщиков (женатые\замужние) показала средний процент должников - 7.6%
Самыми ненадежными заемщиками показали себя неженатые\незамужние (9.8% должников) и проживающие в гражданском браке (9.3% должников)
Самые надежные заемщики - вдовцы/вдовы(6.6% должников) и разведенные (7% должников)

На основании этого можно сделать вывод, что люди состоящие в браке сейчас либо состоявшие в браке ранее являются более надежными заемщиками, чем те, кто никогда не заключал брак.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [24]:
total_income_category_count = data.groupby('total_income_category').agg({'debt':'count'})
#считаем количество заемщиков в каждой категории
total_income_category_sum = data.groupby('total_income_category').agg({'debt':'sum'})
#считаем количество должников в каждой категории
total_income_category_mean = data.groupby('total_income_category').agg({'debt':'mean'})
#считаем количество заемщиков в каждой категории
total_income_category_count_sum = total_income_category_count.merge(
    total_income_category_sum, on='total_income_category', how='left')
#объединяем результаты в одну таблицу, строки - категория дохода заемщика
total_income_category_count_sum_mean = total_income_category_count_sum.merge(
    total_income_category_mean, on='total_income_category', how='left')
#объединяем результаты в одну таблицу, строки - категория дохода заемщика
total_income_category_count_sum_mean = total_income_category_count_sum_mean.rename(
    columns={'debt_x':'count', 'debt_y':'sum', 'debt':'mean'})
#чтобы названия столбцов давали представление о данных в них, переименуем их функцией rename
total_income_category_count_sum_mean

Unnamed: 0_level_0,count,sum,mean
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,25,2,0.08
B,5014,354,0.070602
C,15921,1353,0.084982
D,349,21,0.060172
E,22,2,0.090909


**Вывод:** 
Категория А (доход от миллиона) и категория Е (доход менее 3о тыс.) слишком малочисленны, чтобы на основе анализа можно было сделать корректные выводы.
Самая общирная категория С (от 50 до 200 тыс.) среди трех оставшихся категорий показывает худший результат - 8.5% должников
В категории В (200 - 1000 тыс.) процент должников 7.1%
В категории D (30 - 50 тыс.) процент должников 6%
Так как основная масса заемщиков принадлежат к категориям В и С, на их основе можно сделать вывод, что при повышении дохода, риск просрочки по кредиту снижается.

### Как разные цели кредита влияют на его возврат в срок?

In [25]:
purpose_category_count = data.groupby('purpose_category').agg({'debt':'count'})
#считаем количество заемщиков в каждой категории
purpose_category_sum = data.groupby('purpose_category').agg({'debt':'sum'})
#считаем количество должнтков в каждой категории
purpose_category_mean = data.groupby('purpose_category').agg({'debt':'mean'})
#считаем среднее в каждой категории, оно покажет отношение должников к общему числу заемщиков в каждой категории
purpose_category_count_sum = purpose_category_count.merge(purpose_category_sum, on='purpose_category', how='left')
#объединяем результаты в одну таблицу, строки - цель кредита заемщика
purpose_category_count_sum_mean = purpose_category_count_sum.merge(purpose_category_mean, on='purpose_category', how='left')
#объединяем результаты в одну таблицу, строки - цель кредита заемщика
purpose_category_count_sum_mean = purpose_category_count_sum_mean.rename(
    columns={'debt_x':'count', 'debt_y':'sum', 'debt':'mean'})
#чтобы названия столбцов давали представление о данных в них, переименуем их функцией rename
purpose_category_count_sum_mean

Unnamed: 0_level_0,count,sum,mean
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,4279,400,0.09348
операции с недвижимостью,10751,780,0.072551
получение образования,3988,369,0.092528
проведение свадьбы,2313,183,0.079118


**Вывод:** Автокредиты и кредиты на образование показывают более высокий процент должников, чем кредиты на недвижимость и свадьбы.

### Какие могут быть причины появления пропусков в исходных данных?

In [26]:
data1 = pd.read_csv('/datasets/data.csv')
data1[data1['days_employed'].isna()]
#количество пропусков в трудовом стаже и уровне дохода совпадают, проверим находятся ли эти пропуски в один и тех же строках

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


**Ответ:** Количество пропусков в трудовом стаже и уровне дохода совпадают, проведенная выше проверка выявила, что пропуски данных расположены в одних и тех же строках, остальные данные на этих строках различны, значит пропуски не зависят от каких-то других параметров. Возможно в заявке на кредит эти данные были нелбязательны к заполнению, и заемщики их не заполнили. Если данные с пропусками пришли из какого-то определенного филиала банка, возможно пропуски - результат технического сбоя.

## Вывод:

Для исследования была предоставлена таблица по 21525 выданному банком кредиту. Данные включали: количество детей, трудовой стаж, возраст, образование, семейное положение, пол, тип занятости, наличие задолженности, ежемесячный доход и цель получения кредита.

В данных по трудовому стажу и ежемесячному доходу было допущено 2174 пропуска, что составляет около 10% от всего массива данных. Не установлено были ли пропуски вызваны техническим или человеческим фактором. 

Недостающие данные были заменены медианными значениями по каждой группе типа занятости. Для целей исследования было выбранно именно медианное значение, поскольку в данных возможны выбросы, что делает среднее арифметическое неинформативным методом. 

Так же в данных о трудовом стаже присутсвовали аномалии, они были устранены путем замены значений столбца, на модули этих значений. 

Для каждого типа занятости было найдено медианное значение трудового стажа. Для безработных и пенсионеров значения получились аномально высокими, но для целей ислледования это не имеет значения. 

Были удалены 194 строки с аномальным значением количества детей.

Далее выполнена проверка на наличие пропусков в таблице, а тип данных об уровне дохода для удобства был заменен на целочисленный. 

Вероятно данные об образовании заполнялись вручную работниками банка или заемщиками, поэтому из-за заполения разными регистрами, в данных образовались неявные дубликаты. 71 неявных дубликатов было удалено при помощи приведения всех значений столбца к нижнему регистру. 

На основании данных банком диапазонов, была проведена категоризация данных об уровне доходов заемщиков. В соответствии с уровнем дохода заемщики были разделены на 5 категорий от А-доход выше миллиона, до Е-доход до 30 тыс. 

Для удобства работы с целями кредита 38 указанных целей были разделены на 4 категории: операции с автомобилем, операции с недвижимостью, получение образования, проведение свадьбы. 

Далее было проведено исследование зависимости вероятности просрочки от следующих факторов: количества детей, семейного положения, уровня дохода и цели кредита.


По результтам исследования были сделаны следующие выводы:
1. бездетные заемщики реже других имеют просрочки по кредитам
2. люди состоящие или состоявшие ранее в браке реже других имеют просрочки по кредитам
3. заемщики, указывающие целью операции с недвижимостью и проведение свадьбы, реже других имеют просрочки по кредитам
4. при повышении уровня дохода заемщика снижается риск просрочки по кредиту
5. Пропуски в данных о уровне дохода могли повлиять на результат исследования. Если причина пропуска - технический сбой, следует повторно запросить данные и перепровести анализ. Если эти данные являются необязательными к заполнению, желательно это исправить для проведения анализа в будущем.