# Исследование надежности заемщиков

## Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Цель исследования
Определить влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок для построения модели кредитного скоринга.

## Описание данных
Описание колонок:
* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

## Ход исследования
**Шаг 1. Изучить общую информацию о данных**
* Определить наличие некорректных типов данных.
* Определить наличие пропусков.
* Определить наличие дубликатов.
* Изучить корректность названий столбцов.

**Шаг 2. Предобработка данных**
* Исправить невозможные значения в столбцах.
* Обработать пропуски.
* Заменить тип данных.
* Обработать дубликаты.
* Категоризировать данные.

**Шаг 3. Проверка гипотез**
* Определить есть ли зависимость между наличием детей и возвратом кредита в срок.
* Определить есть ли зависимость между семейным положением и возвратом кредита в срок.
* Определить есть ли зависимость между уровнем дохода и возвратом кредита в срок.
* Определить как разные цели кредита влияют на его возврат в срок.


## Обзор данных
Импортируем библиотеку `pandas`. Считаем данные из csv-файла в датафрейм и сохраним в переменную `data`.

In [1]:
import pandas as pd #Импортирую библиотеку pandas.

In [5]:
data = pd.read_csv('/Users/oleynik-a/Desktop/data.csv') #Читаю файл с данными и сохраняю в переменную data.

Выведем первые 20 строчек датафрейма `data` на экран.

In [8]:
data.head(20) #Получаю первые 20 строк таблицы data для знакомства с данными.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Выведем основную информацию о датафрейме с помощью метода `info()`.

In [7]:
data.info() # Получаю общую информацию о данных в таблице data.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных
### Удаление пропусков
Выведем количество пропущенных значений для каждого столбца. Используем для этого комбинацию двух методов.

In [9]:
print(data.isna().sum()) #Вывожу количество пропущенных значений для каждого столбца.

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце обработаем на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости сотрудник пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.

In [10]:
#Заменяю пропущенные данные в столбце 'total_income' на медианные значения по группам в столбце 'income_type'
data['total_income'] = data['total_income'].fillna(data.groupby('income_type')['total_income'].transform('median')) 
print(data.isna().sum()) #Проверяю, заменились ли пропуски в значениях.

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64


### Обработка аномальных значений

В данных встречаются артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом является отрицательное количество дней трудового стажа в столбце `days_employed`. Обработаем значения в этом столбце: заменим все отрицательные значения положительными с помощью метода `abs()`.

In [11]:
#Заменяю все отрицательные значения положительными с помощью метода abs().
data['days_employed'] = data['days_employed'].abs() 

Для каждого типа занятости выведем медианное значение трудового стажа days_employed в днях.

In [12]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть. Тем более этот столбец не понадобится вам для исследования.

Выведем перечень уникальных значений столбца `children`.

In [13]:
print(data['children'].unique())

[ 1  0  3  2 -1  4 20  5]


В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.

In [14]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

Ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.

In [16]:
print(data['children'].unique())

[1 0 3 2 4 5]


Заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`.

In [17]:
data['days_employed'] = data['days_employed'].fillna(data.groupby('income_type')['days_employed'].transform('median'))

Убедимся, что все пропуски заполнены. Проверим себя и ещё раз выведем количество пропущенных значений для каждого столбца с помощью двух методов.

In [18]:
print(data.isna().sum())

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64


### Изменение типов данных

Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.

In [19]:
data['total_income'] = data['total_income'].astype('int')

### Обработка дубликатов

Выведем на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их.

In [20]:
data.duplicated().sum() #Считаем дубликаты.

54

In [21]:
data = data.drop_duplicates().reset_index(drop= True) #Удаляем дубликаты.

Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведём их к нижнему регистру. Проверим остальные столбцы.

In [22]:
data['education']=data['education'].str.lower()

### Категоризация данных

На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:

* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

Например, кредитополучателю с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'.

In [23]:
#Создаём функцию categorize_income().
def categorize_income(total_income):
    if total_income < 30000:
        return 'E'
    if 30001 <= total_income < 50000:
        return 'D'
    if 50001 <= total_income < 200000:
        return 'C'
    if 200001 <= total_income < 1000000:
        return 'B'
    if 1000001 <= total_income:
        return 'A'
#Применяем функцию методом apply().
data['total_income_category'] = data['total_income'].apply(categorize_income)

Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`.

In [24]:
print(data['purpose'].unique())

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']


Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.

In [25]:
#Создаём функцию categorize_purpose().
def categorize_purpose(purpose):
    try:
        if 'авто' in purpose:
            return 'операции с автомобилем'
        if 'недвиж' in purpose or 'жиль' in purpose:
            return 'операции с недвижимостью'
        if 'образован' in purpose:
            return 'получение образования'
        if 'свадьб' in purpose:
            return 'проведение свадьбы'
    except:
        return 'категория неизвестна'

#Применяем функцию методом apply().
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

## Проверка гипотез
* Определить есть ли зависимость между наличием детей и возвратом кредита в срок.
* Определить есть ли зависимость между семейным положением и возвратом кредита в срок.
* Определить есть ли зависимость между уровнем дохода и возвратом кредита в срок.
* Определить как разные цели кредита влияют на его возврат в срок.

### Зависимость между количеством детей и возвратом кредита в срок.

Создадим функцию, которая будет считать отношение в процентах, она позволит наглядно демонстрировать разницу в категориях.

In [29]:
def percent(tables):
    return str(round((tables.sum() / tables.count()) * 100, 2)) + '%'

#Построим сводную таблицу для проверки гипотезы о зависимости между количеством детей и возвратом кредита в срок.
summary_children = data.pivot_table(index=['children'], values=['debt'], aggfunc=['sum', 'count', percent])
#Сортируем данные в таблице, чтобы нагляднее визуализировать данные.
summary_children = summary_children.sort_values(by=('percent', 'debt'))
print(summary_children)

           sum  count percent
          debt   debt    debt
children                     
5            0      9    0.0%
0         1063  14107   7.54%
3           27    330   8.18%
1          444   4809   9.23%
2          194   2052   9.45%
4            4     41   9.76%


**Вывод:** можно увидеть тренд на более частое возникновение просроченной задолженности, у людей, которые имеют большее количество детей.

При этом категория людей с 3 детьми чаще платят в срок чем люди с 1 и 2 детьми.
При большем количестве заёмщиков без детей частота возникновения у этой категории ниже, чем у категорий заюмщиков с количеством детей от 1 до 4.

Данных по категории заёмщиков с 5 детьми недостаточны, сделать выводы о вероятности задолженности по этой категории невозможно.

Данные не однозначные, возможно, нужна большая выборка.

### Зависимость между семейным положением и возвратом кредита в срок.

In [30]:
#Построим сводную таблицу для проверки гипотезы о зависимости между семейным положением и возвратом кредита в срок.
summary_family_status = data.pivot_table(index=['family_status'], values=["debt"], aggfunc=['sum', 'count', percent])
#Сортируем данные в таблице, чтобы нагляднее визуализировать данные.
summary_family_status = summary_family_status.sort_values(by=('percent', 'debt'))
print(summary_family_status)

                       sum  count percent
                      debt   debt    debt
family_status                            
вдовец / вдова          63    951   6.62%
в разводе               84   1189   7.06%
женат / замужем        927  12266   7.56%
гражданский брак       385   4146   9.29%
Не женат / не замужем  273   2796   9.76%


**Вывод:** у категории заёмщиков, бывших или состоящих в официальных отношениях реже возникает просроченная задолженность, чем у категорий не состоящих в официальном браке.

### Зависимость между уровнем дохода и возвратом кредита в срок.

In [28]:
#Построим сводную таблицу для проверки гипотезы о зависимости между семейным положением и возвратом кредита в срок.
summary_income = data.pivot_table(index=['total_income_category'], values=["debt"], aggfunc=['sum', 'count', percent])
#Сортируем данные в таблице, чтобы нагляднее визуализировать данные.
summary_income = summary_income.sort_values(by=('percent', 'debt'))
print(summary_income)

                        sum  count percent
                       debt   debt    debt
total_income_category                     
D                        21    349   6.02%
B                       354   5014   7.06%
A                         2     25    8.0%
C                      1353  15938   8.49%
E                         2     22   9.09%


**Вывод:** статистически, наиболее часто просрочка возникает у категории заёмщиков с низким доходом 0–30000. А наименьшая цастота возникновения задолженности наблюдается у категорий заёмщиков со средним и высоким уровнем дохода.

При этом стоит обратить внимание на неравномерность выборки. Наибольшей категорией заёмщиков являются люди с доходом 50001–200000. Присутствие этой категории заёмщиков кратно превышает остальные категории. Статистически возрастает и возможность возникновения задолженности.

Меньше всего данных по категориям клиентов:
* С доходом 1000001 и выше, вероятно этим клиентам менее интересны займы.
* С доходом ниже 30000 тысяч, вероятно объёмы выдачи кредитов по этим категориям ниже.
* С доходом от 30001 до 50000, также вероятно объёмы выдачи кредитов по этим категориям ниже.

Сделать точные выводы по имеющимся данным сложно, однако, если исключить эти 3 категории заёмщиков, то можно сделать выводы о более высокой вероятности задолженности при меньших доходах.

### Влияние разных целей кредита на его возврат в срок.

In [31]:
#Построим сводную таблицу для проверки гипотезы о зависимости между семейным положением и возвратом кредита в срок.
summary_purpose = data.pivot_table(index=['purpose_category'], values=["debt"], aggfunc=['sum', 'count', percent])
#Сортируем данные в таблице, чтобы нагляднее визуализировать данные.
summary_purpose = summary_purpose.sort_values(by=('percent', 'debt'))
print(summary_purpose)

                          sum  count percent
                         debt   debt    debt
purpose_category                            
операции с недвижимостью  780  10754   7.25%
проведение свадьбы        183   2324   7.87%
получение образования     369   3989   9.25%
операции с автомобилем    400   4281   9.34%


**Вывод:** наименьшие риски возникновения задолженности имеют займы с целями операций с недвижимостью и проведения свадьбы.

Более рискованными являются займы с целями получения образования и операций с автомобилем.

### Возможные причины появления пропусков в исходных данных.
Пропуски обнаружены в 2 столбцах days_employed и total_income, скорее всего это связано с тем, что у людей нет подтвержденного и стажа (работа в черную и т.д.).

Медианное значение позволит получить более точную информацию и снизить возможную статистическую погрешность за счёт того, что на пропуски будут меньше влиять пиковые значения.

## Общий вывод.

Самый идеальный заемщик - это человек без детей, состоящий или состоявший в официальных отношениях, имеющий уровень дохода выше среднего и берущий деньги на недвижимость. По такому профайлу мы имеем достаточное количество данных, что позволяет достоверно сделать такой вывод.

"Разброс" просроченных выплат по каждой из категорий примерно одинаковый. В среднем, это диапазон 6-9%.

Вероятность задолженности по наличию детей:
Бездетные заёмщики - 7.54%.
Заёмщики с 3 детьми - 8.18%.
Заёмщики с 1 ребёнком - 9.23%.
Заёмщики с 2 детьми - 9.45%.
Заёмщики с 4 детьми - 9.76%.
Заёмщики с 5 детьми - 0% (данные по этой категории не показательны).

Вероятность задолженности по семейному положению:
Вдовец / вдова - 6.62%.
В разводе - 7.06%.
Женат / замужем - 7.56%.
Гражданский брак - 9.29%.
Не женат / не замужем - 9.76%.

Вероятность задолженности по семейному положению:
0–30000 —  9.09% (данные по этой категории не показательны).
30001–50000 —  6.02% (данные по этой категории не показательны).
50001–200000 —  8.49%.
200001–1000000 — 7.06%.
1000001 и выше — 8.0% (данные по этой категории не показательны).

Вероятность задолженности по целям займа:
Операции с недвижимостью - 7.25%.
Проведение свадьбы - 7.87%.
Получение образования - 9.25%.
Операции с автомобилем - 9.34%.

Несмотря на схожий в процентном отношении разброс значений, наибольшее влияние на вероятность просрочки показывает семейное положение и цели займа. Во вторую очередь, следует обращать внимание на уровень дохода. Наименьшее влияние оказывают наличие детей.