# Исследование надежности заемщиков


## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [None]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [None]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [None]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [None]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [None]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [None]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [None]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [None]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [None]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [None]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [None]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [None]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [None]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [None]:
data.duplicated().sum()

71

In [None]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [None]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [None]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['total_income_category'] = data['total_income'].apply(categorize_income)


**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [None]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [None]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [None]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [None]:
children_debt = data.pivot_table(index='children', values='debt', aggfunc={'count','sum'})
children_debt = children_debt.rename(columns={'count': 'credit', 'sum': 'delay'})
children_debt['percent_delay'] = round((children_debt['delay'] / children_debt['credit']) * 100, 3)
children_debt = children_debt.sort_values(by='percent_delay')

display(children_debt)
# Ваш код будет здесь. Вы можете создавать новые ячейки.

Unnamed: 0_level_0,credit,delay,percent_delay
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,9,0,0.0
0,14091,1063,7.544
3,330,27,8.182
1,4808,444,9.235
2,2052,194,9.454
4,41,4,9.756


**Вывод:**
Наблюдается, на первый взгляд, ожидаемая корреляция между просроченными кредитными обязательствами и количеством детей в семье. Выборку с семьями в 5 детей считаю не резепрентативной, в виду малого количества наблюдаемх случаев, и предлагаю не учитывают при построении выводов.
Наибольший показатель возвратов кредитов в срок наблюдается у заемщиков без детей.
При этом весьма хороший процентом возврата кредита в срок (91,82%) наблюдается у заемщиков с 3 детьми. Возможно связано с мерами поддержки многодедтных семей за счет государственных программ. Проверить данную гипотезу в рамках этой практической работы не представляется возможным.
В дальнейшем наблюдении вероятность возвращения кредита в срок снижается с увеличением количества детей у заемщика.

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [None]:
family_debt = data.pivot_table(index = [ 'family_status'], values = 'debt', aggfunc = {'count','sum'})
family_debt = family_debt.rename(columns={'count': 'credit','sum': 'delay'})
family_debt['percent_delay'] = round(family_debt['delay']/family_debt['credit'] * 100, 3)
family_debt = family_debt.sort_values(by='percent_delay')
display(family_debt)

age_debt = data.pivot_table(index = [ 'dob_years'], values = 'debt', aggfunc = {'count','sum'})
age_debt = age_debt.rename(columns={'count': 'credit','sum': 'delay'})
age_debt['percent_delay'] = round(age_debt['delay']/age_debt['credit'] * 100, 3)
age_debt = age_debt.sort_values(by='percent_delay')
display(age_debt)

age_family = data.pivot_table(index = ['dob_years'], columns = 'family_status', values = 'debt', aggfunc = {'count','sum'})
age_family = age_family.rename(columns={'count': 'credit','sum': 'delay'})
display(age_family)

# Ваш код будет здесь. Вы можете создавать новые ячейки.

Unnamed: 0_level_0,credit,delay,percent_delay
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,951,63,6.625
в разводе,1189,84,7.065
женат / замужем,12261,927,7.561
гражданский брак,4134,385,9.313
Не женат / не замужем,2796,273,9.764


Unnamed: 0_level_0,credit,delay,percent_delay
dob_years,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
75,1,0,0.0
73,8,0,0.0
74,6,0,0.0
71,56,1,1.786
61,352,10,2.841
66,182,8,4.396
63,268,12,4.478
70,65,3,4.615
64,258,12,4.651
69,83,4,4.819


Unnamed: 0_level_0,credit,credit,credit,credit,credit,delay,delay,delay,delay,delay
family_status,Не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем,Не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем
dob_years,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
0,16.0,10.0,5.0,21.0,48.0,1.0,0.0,1.0,2.0,4.0
19,7.0,,,4.0,3.0,1.0,,,0.0,0.0
20,26.0,1.0,,12.0,12.0,1.0,0.0,,1.0,2.0
21,55.0,1.0,,28.0,26.0,9.0,0.0,,1.0,4.0
22,75.0,2.0,,49.0,57.0,13.0,1.0,,6.0,5.0
23,99.0,3.0,1.0,62.0,85.0,6.0,0.0,0.0,9.0,5.0
24,99.0,8.0,,65.0,91.0,11.0,1.0,,4.0,8.0
25,112.0,6.0,,84.0,154.0,16.0,2.0,,8.0,17.0
26,124.0,15.0,,71.0,196.0,14.0,1.0,,9.0,23.0
27,115.0,19.0,1.0,103.0,252.0,9.0,3.0,0.0,7.0,30.0


**Вывод:**
В данном срезе исследования хорошо заметно, что категории заемщиков, которые ранее состояли в браке с более высокой вероятностью исполняют кредитные обязательства в срок. Возможно это связанно с тем, что эта группа людей, в большинстве своем, представленно состоявщимеся, в профессиональном и материальном плане, личностями, более трезво оценивающие свои материальные возможности.
Немного хуже выглядит статистика возврата кредита в срок у категории женатых заемщиков. Возможно этот разрыв обусловлен тем, что при любом раскладе, чем больше тесных социальных связей у заемщика, тем больше незапланированных трат может возникнуть, которые повлияют на возможность своевременно выполнять кредитные обязательства.
Худшие показатели, в отношении процента возврата кредита в срок, у заемщиков состоящих в гражданском браке, либо вовсе не состоявших в браке когда-либо. Моя гипотеза связана с тем, что в этих группах заемщиков подавляющее большинство людей имеют довольно юный возраст и, как правило, не достаточно эрудированны в плане финансовой грамотности. Для подтверждения своей гипотезы проверяю процент невозврата кредита в срок в зависимости от возраста заемщика и семейное положение в зависимости от возраста. В этом лучае видна четкая корреляция возраста и процента возврата кредита в срок. Чем моложе заемщик, тем менше вероятность выплаты кредитных обязательств в срок. Имеются резкие отклонения (к примеру заемщики 19 и 20 лет), вероятней всего обуславливаются поддержкой родителей.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [None]:
cash_debt = data.pivot_table(index = ['total_income_category'], values = 'debt', aggfunc = {'count','sum'})
cash_debt = cash_debt.rename(columns={'count': 'credit','sum': 'delay'})
cash_debt['percent_delay'] = round(cash_debt['delay']/cash_debt['credit'] * 100, 3)
cash_debt = cash_debt.sort_values(by='percent_delay')
display(cash_debt)

cash_job = data.pivot_table(index = ['income_type'], columns = 'total_income_category', values = 'debt', aggfunc = {'count','sum'})
cash_job = cash_job.rename(columns={'count': 'credit','sum': 'delay'})
display(cash_job)

job_debt = data.pivot_table(index = ['income_type'], values = 'debt', aggfunc = {'count','sum'})
job_debt = job_debt.rename(columns={'count': 'credit','sum': 'delay'})
job_debt['percent_delay'] = round(job_debt['delay']/job_debt['credit'] * 100, 3)
job_debt = job_debt.sort_values(by='percent_delay')
display(job_debt)

Unnamed: 0_level_0,credit,delay,percent_delay
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,349,21,6.017
B,5014,354,7.06
A,25,2,8.0
C,15921,1353,8.498
E,22,2,9.091


Unnamed: 0_level_0,credit,credit,credit,credit,credit,delay,delay,delay,delay,delay
total_income_category,A,B,C,D,E,A,B,C,D,E
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
безработный,,1.0,1.0,,,,0.0,1.0,,
в декрете,,,1.0,,,,,1.0,,
госслужащий,,366.0,1060.0,24.0,1.0,,18.0,67.0,1.0,0.0
компаньон,15.0,1733.0,3273.0,25.0,1.0,2.0,109.0,262.0,1.0,0.0
пенсионер,,552.0,3081.0,164.0,15.0,,31.0,176.0,7.0,2.0
предприниматель,,2.0,,,,,0.0,,,
сотрудник,10.0,2360.0,8504.0,136.0,5.0,0.0,196.0,846.0,12.0,0.0
студент,,,1.0,,,,,0.0,,


Unnamed: 0_level_0,credit,delay,percent_delay
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
предприниматель,2,0,0.0
студент,1,0,0.0
пенсионер,3812,216,5.666
госслужащий,1451,86,5.927
компаньон,5047,374,7.41
сотрудник,11015,1054,9.569
безработный,2,1,50.0
в декрете,1,1,100.0


**Вывод:**
Лучшие показатели возврата креди в срок наблюдаются у группы заемщиков с зарплатным диапазоном от 30 000 до 50 000 рублей. Возможно это связанно с относительно невысоким (хотя, как утверждают официальные источники, в пределах средней ЗП), но стабильным доходом, позволяющим распланировать все траты. Как и ожидалось весьма хороший процент возврата кредита в срок у людей с высоким уровнем дохода (от 200 000 до 1 000 000 руб, от 1 000 000 руб и выше). Группа людей с доходом от 50 000 до 200 000 руб имеют не самые лучшие показатели исполнения кредитных обязательств в срок. При этом если рассмотреть размер ежемесячного дохода совместно с категорией занятости, то можно заметить, что основной группой, не выполняющих кредитные платежи в срок (в рамках ежемесячного дохода от 50 000 до 200 000 руб), являюется "сотрудник". Возможно это связанно с тем, что на момент оформления кредита у "сотрудника" была соответствующая денежная компенсация, однако обстоятельства могли измениться со временем, доход снизиться и выполнение обязательств перед банком в срок перестало быть возможным. Можно заменить, что % невозврата в группе "сотрудник" (как и в группе "компаньон") выше чем в остальных. Частный коммерческий сектор не самая стабильная область.
Очевидный, но тем не менее требующий подтверждения, факт: группа заемщиком с низким доходом (менее 30 000 руб) хуже всего справляются со взятыми на себя кредитными обязательствами в срок.
Так же, в рамках этого исследования, провел срез по занятости, результаты применю в общем выводе

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [None]:
purpose_debt = data.pivot_table(index = [ 'purpose_category'], values = 'debt', aggfunc = {'count','sum'})
purpose_debt = purpose_debt.rename(columns={'count': 'credit','sum': 'delay'})
purpose_debt['percent_delay'] = round(purpose_debt['delay']/purpose_debt['credit'] * 100, 3)
purpose_debt = purpose_debt.sort_values(by='percent_delay')
display(purpose_debt)
# Ваш код будет здесь. Вы можете создавать новые ячейки.

Unnamed: 0_level_0,credit,delay,percent_delay
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,10751,780,7.255
проведение свадьбы,2313,183,7.912
получение образования,3988,369,9.253
операции с автомобилем,4279,400,9.348


**Вывод:**
В нашем менталитете заложенно, что свое жилье просто необходимо. Видимо именна эта установка обязует людей особо трепетно и внимательно относится к ипотечным кредитам, что при анализе позволяет наблюдать самый высокий процент возврата кредита в срок именно в этой группе.
Кредиты на взятые на проведение свадьбы, так же возвращаются с относительно небольшим количеством нарушений срока. Хочется верить, что пара решившая узаконить свои отношения крайне внимательно и серьезно относятся к взятым кредитным обязательствам (что можно подтвердить сославшись на прошлые исследования 2.7.2/3.2), но есть вероятность, что эта группа закрывается с небольшим количеством просрочек благодаря тому, что свадьба "отбилась" подарками гостей. Проверить эту гипотезу можно посмотрев количество досрочно закрытых кредитов (либо резко увеличившиеся суммы платежей), взятых на "проведение свадьбы". Подтверить эту гипотезу в рамках этого исследования не представляется возможным.
Получение образование и операции с автомобилем имеют заметно худший процент возврата в срок. Не исключено, что часть выплат перестает поступать в срок, если цели кредитных продуктов больше не актуальны для заемщика (нет возможности продолжить обучение, на которое брался кредит; автомобиль слишком сильно бьет по бюджету)

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:*
Пропуски были в столбцах days_employed и total_income. Всегда возможен человеческий фактор, но стоит учесть, что количество пропуском в обоих столбцах было одинаковым, а вероятность одинаковой количество раз ошибиться в разных столбцах, на таком массиве данных, мягко говоря маловероятно. Вероятней всего, к человеческому фактору ошибки добавляется техническая: при пропуске значений в одном столбце в систему не попадают данные из другого

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:*
Среднее арифметическое отражает ситуацию некорректно, так как не учитывает разброс данных. Медианное значение лучше всего отражает выборку в целом, в случае, если есть незаполненные данные.

### Шаг 4: общий вывод.

In [None]:
# дополнительные исследования

family_job = data.pivot_table(index = ['income_type'], columns = 'family_status', values = 'debt', aggfunc = {'count','sum'})
family_job = family_job.rename(columns={'count': 'credit','sum': 'delay'})
display(family_job)

family_purpose = data.pivot_table(index = ['income_type'], columns = 'purpose_category', values = 'debt', aggfunc = {'count','sum'})
family_purpose = family_purpose.rename(columns={'count': 'credit','sum': 'delay'})
display(family_purpose)

family_cash = data.pivot_table(index = ['purpose_category'], columns = 'total_income_category', values = 'debt', aggfunc = {'count','sum'})
family_cash = family_cash.rename(columns={'count': 'credit','sum': 'delay'})
display(family_cash)

children_cash = data.pivot_table(index = ['children'], columns = 'total_income_category', values = 'debt', aggfunc = {'count','sum'})
children_cash = children_cash.rename(columns={'count': 'credit','sum': 'delay'})
display(children_cash)


Unnamed: 0_level_0,credit,credit,credit,credit,credit,delay,delay,delay,delay,delay
family_status,Не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем,Не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
безработный,,,,1.0,1.0,,,,0.0,1.0
в декрете,,,,,1.0,,,,,1.0
госслужащий,163.0,81.0,45.0,261.0,901.0,12.0,4.0,2.0,18.0,50.0
компаньон,804.0,270.0,97.0,1006.0,2870.0,72.0,8.0,9.0,94.0,191.0
пенсионер,349.0,218.0,532.0,647.0,2066.0,16.0,13.0,37.0,36.0,114.0
предприниматель,,,,1.0,1.0,,,,0.0,0.0
сотрудник,1479.0,620.0,277.0,2218.0,6421.0,173.0,59.0,15.0,237.0,570.0
студент,1.0,,,,,0.0,,,,


Unnamed: 0_level_0,credit,credit,credit,credit,delay,delay,delay,delay
purpose_category,операции с автомобилем,операции с недвижимостью,получение образования,проведение свадьбы,операции с автомобилем,операции с недвижимостью,получение образования,проведение свадьбы
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
безработный,,2.0,,,,1.0,,
в декрете,1.0,,,,1.0,,,
госслужащий,284.0,753.0,256.0,158.0,22.0,36.0,21.0,7.0
компаньон,1048.0,2531.0,947.0,521.0,84.0,167.0,72.0,51.0
пенсионер,791.0,1881.0,719.0,421.0,51.0,92.0,48.0,25.0
предприниматель,,1.0,,1.0,,0.0,,0.0
сотрудник,2155.0,5582.0,2066.0,1212.0,242.0,484.0,228.0,100.0
студент,,1.0,,,,0.0,,


Unnamed: 0_level_0,credit,credit,credit,credit,credit,delay,delay,delay,delay,delay
total_income_category,A,B,C,D,E,A,B,C,D,E
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
операции с автомобилем,2,1022,3181,72,2,0,85,305,10,0
операции с недвижимостью,17,2558,7997,168,11,1,172,599,6,2
получение образования,4,890,3014,75,5,1,69,297,2,0
проведение свадьбы,2,544,1729,34,4,0,28,152,3,0


Unnamed: 0_level_0,credit,credit,credit,credit,credit,delay,delay,delay,delay,delay
total_income_category,A,B,C,D,E,A,B,C,D,E
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
0,12.0,3246.0,10573.0,243.0,17.0,1.0,220.0,828.0,12.0,2.0
1,9.0,1167.0,3562.0,66.0,4.0,1.0,88.0,351.0,4.0,0.0
2,3.0,502.0,1512.0,34.0,1.0,0.0,41.0,149.0,4.0,0.0
3,1.0,88.0,236.0,5.0,,0.0,4.0,22.0,1.0,
4,,7.0,34.0,,,,1.0,3.0,,
5,,4.0,4.0,1.0,,,0.0,0.0,0.0,


В результате проведенных исследований были определены возможные риски с исполнением кредитых обязательств клиентами банка.

Если рассматривать риски по группам занятости заемщика, то разрыв наблюдаемых случаях невозврата кредита, в основных наблюдаеммых группах, весьма большой. К примеру: у "пенсионера" шанс неисполнения кредитный обязательств в срок составляет 5,666%, в то время как у "сотрудника" - 9,569%, что выше на 68,9%! В условиях нестабильного рынка, более безопасными заемщиками, на основании имеющихся данных, являются клиенты, доход которых поступает с государственного бюджета.

Если рассматривать риски через призму объемов дохода кредитуемого лица, беря на рассмотрения только группы, которые представленны большИм количеством (B(200 001 - 1 000 000 руб) и C(50 001 - 200 000 руб), то можно сделать вывод, что заемщики имеющие более высокий доход, имеют лучшие показатели возвращения кредитов в срок. Разрыв имеется, 7,060% и 8,498% соответственно (что в отношении друг друга составляет 20,4%). Корреляция не столь сильная, как в прошлом примере, но так же серьезная.

При этом при рассмотре уровня дохода совместо с типом занятости, наблюдается такая же тендеция, бюджетники являются более ответственными исполнителями кредитных обязательств.

Например (в скобках указана "группа дохода" - "% неисполенных в срок кредитов"):

Госслужащий (В - 4,92%; С - 6,32%) - самая высокая относительная корреляция

Компаньон (В - 6,29%; С - 8,00%) - самая высокая абсолютная корреляция

Пенсионер (В - 5,62%; С - 5,71%) - самая низкая корреляция!

Сотрудник (В - 8,31%; С - 9,95%)

При рассмотрении рисков в отношении количества детей у заемщиков наблюдается ожидаемая корреляция, в плане больше детей -> больше случаев просрочки кредитов Ожидаемо, что наличие детей в семье вносит свои коррективы в распределение семейного бюджета, "радуя" счастливых родителей внезапными необходимыми тратами. Хоть и семьи, в составе которых присутствует 3 ребенка (отклонение на 8,45% от заемщика без детей), имеют лучшие показатели чем семьи с 1 (отклонение на 22,41% от заемщика без детей) и 2 детьми (отклонение на 25,32% соответственно), более положительной кредитной статистикой обладают заемщики не имеющих детей. Группы заемщиков с 4 и 5 детьми для рассмотрения не берем, т.к. количество случаев кредитования не позволяет делать корректные выводы.

При рассмотрении зависимости между возвращением кредита в срок и семейным положением клиента банка, наблюдаем, что вдовец/вдова имеют лучшие показатели в своей группе. Однако если сделать срез по семейному статусу и занятости, то будет видно, что из 951 кредитного случая "вдовца/вдовы" приходится на группу "пенсионер" - 532. В итоге именно эта группа задает общую тендецию в отношении оценки рисков. Но, в данном срезе наблюдается интересный факт: ранее группа "сотрудник" показывала, по результатам исследований, себя как самая рисковая группа заемщиков, при этом группа "сотрудник"/"вдовец/вдова" показывает 5,42% неисполнения кредитных обязательств в срок, что является ниже (на 22,2%) средней по группе "вдовец/вдова", составляющей 6,625%. В остальном видна тендеция, что клиенты, которые связаны, либо были связаны узами брака являются более ответственными в вопросе своевременной оплаты кредита.

При оценке рисков на основании полученных данных, сгруппированных по назначению кредита, мы можем сделать следующие выводы:

Группа "Сотрудник" является крайне рискованной при выдаче кредитов связанных с получением образования (11,04% неисполнения кредитных обязательств в срок) и операциями связанными с автомобилем (11,23% соответственно) "Пенсионеры" имеют самый низкий разброс показателя просрочек креди между разными назначениями кредита, и при общей оценке выглядят самыми исполнительными плательщиками. Однако если рассмотреть внимательнее группу "Госслужащий" через призму назначения кредитов, то мы увидим, что по целям кредита "Операции с недвижимостью" (4,78%) и "Проведение свадьбы" (4,43%) являются менее рискованными, чем остальные клиенты банка.

При рассмотрении пары "уровень дохода"/"цель кредита" наблюдается одинаковая тенденция во всех случаях, а именно: люди с более высоким доходом, чаще оплачивают кредит в срок.

Подводя итог можно заметить, что при любом рассмотрении групп клиентов, высокий уровень дохода коррелируется с высокой вероятность исполнить кредитные обязательства в срок.

Наличие и количество детей, в той же мере влияют на вероятность выплаты кредита в срок. Из общей тендеции "чем больше детей - тем выше риск" выбиваются семьи с 3-мя детьми. Но, говорят, в нашей стране финансово 3 ребенка проще 2, благодаря гос. программам поддержки многодетных семей.

Детали появляются при рассмотрении типа занятости клиента. "Пенсионеры" менее рискованный вариант, в то время как "Сотрудник" является самым рискованным, за исключением рассмотренных нами кредитных случаев "сотрудника"/"вдовца/вдовы".

"Госслужащие" при рассмотрении совместно с целями кредита, такими как "Проведение свадьбы" и "Операции с недвижимостью" являются наименее рискованными кредитными случаями.