# Исследование надежности заемщиков.

Для кредитного отдела банка необходимо провести исследование, результаты которого будут учтены при построении модели кредитного скоринга.

**Цель исследования** - определить, влияет ли семейное положение и количество детей на факт погашения кредита в срок.

**Ход исследования**

Данные о платежеспособности клиентов получаем из файла `/datasets/data.csv`. О качестве данных ничего не известно, поэтому, перед тем, как сделать выводы о зависимости между семейным положением, количеством детей и фактом успешного погашения кредита необходим обзор данных.

Исследование пройдет в 3 этапа:
* Обзор данных
* Предобработка данных
* Ответы на поставленные вопросы

## Обзор данных

Для работы с данными используем библиотеку `pandas`. Импортируем ее прочитаем данные из файла `/datasets/data.csv` в переменную `data`

In [4]:
import pandas as pd
try:
    data = pd.read_csv('/datasets/data.csv')
except FileNotFoundError as e:
    data = pd.read_csv('../../datasets/data.csv')

Для обзора таблицы с данными выведем на экран первые 10 строк

In [5]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Получим общую информацию о таблице

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице 12 столбцов, встречаются различные типы данных.
Согласно документации:
* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

Названия колонок корректны.

Из вывода метода `info()` видно, что в столбцах `days_employed` и `total_income` количество значений меньше, чем в остальных. Следовательно в данных имеются пропуски.

**Выводы**

В каждой строке таблицы мы видим обезличенные данные о заемщике.

При обзоре таблицы с данными замечаем следующие проблемы:
* Имеются пропуски в данных
* Имеются строки с отрицательным трудовым стажем
* Сочетание строчных букв с прописными
* Повторяющиеся значения в некоторых столбцах
* Аномальные значения трудового стажа

Чтобы двигаться дальше, необходимо устранить проблемы в данных.

## Предобработка данных

### Шаг 2.1. Заполнение пропусков

Посчитаем пропуски

In [7]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропущены значения в столбцах `days_employed` и `total_income`. Скорее всего некоторые заемщики не захотели указывать данные о своей занятости и ежемесячном доходе.

In [8]:
data['days_employed'].isna().mean() * 100

10.099883855981417

Пропуски составляют 10% от общего числа записей в каждом из столбцов

В столбце `days_employed` встречаются аномалии - отрицательные значения. Так как трудовой стаж не может быть отрицательным, то, вероятно, здесь произошла ошибка при выгрузке данных из базы. Обработаем этот столбец сразу, потому что при отрицательных значениях исказится значение медианы. Применим метод `abs()`, который вернет значения без знака.

In [9]:
data['days_employed'] = data['days_employed'].abs()

Заполним пропуски медианным значением, так как в данных есть большие расхождения и заполнение средним значением может исказить исследование.

In [10]:
days_employed_median = data['days_employed'].median()
total_income_median = data['total_income'].median()

data['days_employed'] = data['days_employed'].fillna(days_employed_median)
data['total_income'] = data['total_income'].fillna(total_income_median)

Еще раз посчитаем пропуски

In [11]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Пропусков нет, можно двигаться дальше

### Шаг 2.2. Проверка данных на аномалии и исправления.

Помимо аномалий в столбце `days_employed`, в столбце `dob_years` встречаются нулевые значения. Возраст не может быть нулевым, следовательно это ошибка, произошедшая, возможно, в следствие заполнения оператором формы, либо при выгрузке данных из базы. Так, как возраст клиентов имеет небольшой разброс значений, можно заменить нулевые значения средним.

In [12]:
age_avg = int(data['dob_years'].mean())
data.loc[data['dob_years'] == 0, 'dob_years'] = age_avg

Метод `mean()` вернет вещественные значения, поэтому передадим его вывод в функцию `int()`.

В столбце `children` есть отрицательные значения, что так же является ошибкой, связанной, возможно, с выгрузкой из базы. Применим метод `abs()`.

In [13]:
data['children'] = data['children'].abs()

Так же в столбце `children` есть строки с количеством детей = 20, что похоже на выбросы.

In [14]:
data[data['children'] == 20]['children'].count()

76

Отношение выбросов к общему количеству записей

In [15]:
(data['children'] == 20).mean() * 100

0.3530778164924506

Менее 0.5%. Удалим эти строки, так как выбросы в этом столбце могут повлиять на результаты исследования.

In [16]:
data = data.loc[data['children'] < 20]

В столбце `days_employed` есть слишком большие значения трудового стажа, например:

In [17]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


В пятой строке трудовой стаж 340266, что равно 340266 / 365 = 932 года. Столбец `days_employed` не будет использоваться в исследовании, поэтому оставим его как есть.

С аномалиями разобрались, двигаемся дальше

### Шаг 2.3. Изменение типов данных.

В столбце `total_income` находятся вещественные значения. С помощью метода `astype()` заменим вещественные значения на целочисленные

In [18]:
data['total_income'] = data['total_income'].astype('int')
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


### Шаг 2.4. Удаление дубликатов.

В столбце `education` присутствуют неявные дубликаты - значения, записанные в разном регистре. Это могло произойти по причине того, что разные операторы вносят данные в форму по-разному (например, кто то забыл отжать Caps Lock). Приведем значения столбцов `education` и `family_status`к нижнему регистру

In [19]:
data['education'] = data['education'].str.lower()
data['family_status'] = data['family_status'].str.lower()

Найдем количество явных дубликатов методом `duplicated()`. Используем вместе с методом `sum()` для подсчета общего количества дубликатов.

In [20]:
data.duplicated().sum()

71

Явные дубликаты могли возникнуть, например, из-за ошибки при отправке заполненной формы на сервер

Удалим дубликаты со сбросом индекса и еще раз проверим количество дубликатов

In [21]:
data = data.drop_duplicates().reset_index(drop=True)
data.duplicated().sum()

0

Мы избавились от явных и неявных дубликатов, двигаемся дальше

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим 2 новых датафрейма: `education_dict` со столбцами `education_id`, `education` и `family_status_dict` со столбцами `family_status_id`, `family_status`. При создании удалим дубликаты и сбросим индексы.

In [22]:
education_dict = data[['education_id', 'education']].drop_duplicates().reset_index(drop=True)
family_status_dict = data[['family_status_id', 'family_status']].drop_duplicates().reset_index(drop=True)

Удалим из исходного датафрейма столбцы `education` и `family_status` методом drop(). В параметрах метода укажем какие столбцы удалить и параметром `axis=1` говорим, что нужно удалить именно столбцы

In [23]:
data = data.drop(columns=['education', 'family_status'], axis=1)

Проверим

In [24]:
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


### Шаг 2.6. Категоризация дохода.

Определим функцию для разделения доходов на категории по следующему принципу:

* 0–30000 — 'E'
* 30001–50000 — 'D'
* 50001–200000 — 'C'
* 200001–1000000 — 'B'
* 1000001 и выше — 'A'

In [25]:
def income_category(income):
    if income <= 30000:
        return 'E'
    elif income <= 50000:
        return 'D'
    elif income <= 200000:
        return 'C'
    elif income <= 1000000:
        return 'B'
    else:
        return 'A'

Протестируем ее для нескольких значений

In [26]:
print(income_category(0))
print(income_category(30000))
print(income_category(30001))
print(income_category(235000))
print(income_category(25000))
print(income_category(1500000))

E
E
D
B
E
A


Вывод корректен. Создадим в исходном датафрейме новый столбец `total_income_category` c применением функции `income_category()` и проверим результат

In [27]:
data['total_income_category'] = data['total_income'].apply(income_category)
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


### Шаг 2.7. Категоризация целей кредита.

Разделим цели кредита на 4 категории:
* 'операции с автомобилем'
* 'операции с недвижимостью'
* 'проведение свадьбы'
* 'получение образования'

Для этого создадим функцию `purpose_categorize`, которая принимает аргументом строку с описанием цели кредита из исходного датафрейма и на основе ее содержания возвращает одну из категорий

In [28]:
def purpose_categorize(raw):
    if 'авто' in raw:
        return 'операции с автомобилем'
    elif 'недвиж' in raw or 'жиль' in raw:
        return 'операции с недвижимостью'
    elif 'свад' in raw:
        return 'проведение свадьбы'
    elif 'образ' in raw:
        return 'получение образования'

Создадим в исходном датафрейме новый столбец `purpose_category` с использованием функции `purpose_categorize` и выведем первые 5 значений на экран

In [29]:
data['purpose_category'] = data['purpose'].apply(purpose_categorize)
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


In [30]:
data['purpose_category'].unique()

array(['операции с недвижимостью', 'операции с автомобилем',
       'получение образования', 'проведение свадьбы'], dtype=object)

На этом предобработка и категоризация данных завершена, можно приступать к исследованию поставленного вопроса.

## Ответы на вопросы.

### Вопрос 1 
**Есть ли зависимость между количеством детей и возвратом кредита в срок?**

Чтобы ответить на этот вопрос, сгруппируем значения задолженностей по количеству детей в семье

In [31]:
data_children_group = data.groupby('children')['debt'].value_counts()
data_children_group

children  debt
0         0       13028
          1        1063
1         0        4410
          1         445
2         0        1858
          1         194
3         0         303
          1          27
4         0          37
          1           4
5         0           9
Name: debt, dtype: int64

Выразим в процентном соотношении количество просрочек к возвратам в каждой группе

In [32]:
for i in range(5):
    overdue = (data_children_group[i][1] / data_children_group[i][0])
    print("Количество детей {}, просрочки - {:.1%}".format(i, overdue))

Количество детей 0, просрочки - 8.2%
Количество детей 1, просрочки - 10.1%
Количество детей 2, просрочки - 10.4%
Количество детей 3, просрочки - 8.9%
Количество детей 4, просрочки - 10.8%


При 5 детях в семье возвраты 100%, но значений в этой группе слишком мало, поэтому им можно пренебречь.
Меньше всего просрочек у заемщиков без детей, но в общем результаты не сильно отличаются друг от друга.

### Вывод 1 
**Количество детей в семье не влияет на возврат кредита в срок**

### Вопрос 2 
**Есть ли зависимость между семейным положением и возвратом кредита в срок?**

Посчитаем среднее количество просрочек для каждой группы и сделаем сводную таблицу методом `pivot_table()`

In [33]:
data.pivot_table(index='family_status_id', values='debt', aggfunc='mean').merge(family_status_dict, on='family_status_id', how='left')

Unnamed: 0,family_status_id,debt,family_status
0,0,0.075509,женат / замужем
1,1,0.093018,гражданский брак
2,2,0.065969,вдовец / вдова
3,3,0.070411,в разводе
4,4,0.097465,не женат / не замужем


Меньше всего просрочек у вдовствующих и разведенных, но, результаты так же не сильно отличаются друг от друга.

### Вывод 2 
**Семейное положение не влияет на возврат кредита в срок**

### Вопрос 3 
**Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

Методом `pivot_table()` создадим сводную таблицу и вычислим долю должников в каждой группе

In [34]:
data.pivot_table(columns='total_income_category', values='debt', aggfunc='mean')

total_income_category,A,B,C,D,E
debt,0.08,0.070504,0.084837,0.06,0.090909


Как видно из сводной таблицы, доля должников в каждой группе имеет незначительное расхождение

### Вывод 3 
**Уровень дохода не влияет на возврат кредита в срок**

### Вопрос 4 
**Как разные цели кредита влияют на его возврат в срок?**

Методом `pivot_table()` создадим сводную таблицу по целям кредитов и задолженностям и посчитаем среднее значение дохода для каждой группы

In [35]:
data.pivot_table(index='purpose_category', values='debt', aggfunc='mean')

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с автомобилем,0.093473
операции с недвижимостью,0.07239
получение образования,0.092296
проведение свадьбы,0.07905


### Вывод 4 
**Возврат кредита в срок не зависит от целей кредита**

### Проведем дополнительные исследования

Проверим зависимость между образованием и возвратом кредита в срок. Для этого объединим исходный датафрейм и словарь `education_dict` методом `merge()`, сохраним в новую переменную `data_education` и построим сводную таблицу

In [36]:
data_education = data.merge(education_dict, on='education_id', how='left')
data_education.pivot_table(index='education', values='debt', aggfunc='mean')

Unnamed: 0_level_0,debt
education,Unnamed: 1_level_1
высшее,0.053094
начальное,0.109929
неоконченное высшее,0.091644
среднее,0.08973
ученая степень,0.0


В данном случае прослеживается следующая тенденция: чем лучше у человека образование, тем меньше просрочек по кредитам

### Вывод 5 
**Возврат кредита в срок зависит от образования**

Проверим зависимость между типом занятости и возвратом кредита с помощью создания сводной таблицы

In [37]:
data.pivot_table(index='income_type', values='debt', aggfunc=['mean', 'count'])

Unnamed: 0_level_0,mean,count
Unnamed: 0_level_1,debt,debt
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2
безработный,0.5,2
в декрете,1.0,1
госслужащий,0.059107,1455
компаньон,0.073972,5056
пенсионер,0.056545,3820
предприниматель,0.0,2
сотрудник,0.095553,11041
студент,0.0,1


Так как число наблюдений в некоторых группах мало, не будем брать их в расчет. Тогда получается, что тип занятости не влияет на возврат кредита в срок.

### Вывод 6 
**Тип занятости не влияет на возвраты кредитов**

## Общий вывод

В данном исследовании мы проверили 4 основных гипотезы и 2 дополнительных. По результатам исследования, гипотезы о влиянии количества детей в семье, семейного положения, уровня дохода и целей кредита на возврат кредита в срок не подтвердились.
При проведении дополнительных исследований зависимости образования и типа занятости на возврат кредита гипотезы подтвердились частично. Чем лучше у человека образование, тем выше шанс возврата кредита.