# Исследование надежности заемщиков


**Описание проекта и задачи:** заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Описание данных:**
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита


## Загрузка данных

Импортируем библиотеку пандас и загрузим данные

In [1]:
import pandas as pd
data = pd.read_csv('/.../data.csv')

Выведем первые 20 строчек данных на экран.

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


 Выведем основную информацию о данных.

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

Выведем количество пропущенных значений для каждого столбца.

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В двух столбцах есть пропущенные значения. Один из них — days_employed. Пропуски в этом столбце мы обработаем чуть позже. Другой столбец с пропущенными значениями — total_income — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце лучше медианным значением по каждому типу из столбца income_type.

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Обработаем значения в этом столбце: заменим все отрицательные значения положительными.

In [6]:
data['days_employed'] = data['days_employed'].abs()

Для каждого типа занятости выведим медианное значение трудового стажа `days_employed` в днях.

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получились аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть. Тем более этот столбец не понадобится для исследования.

Выведем перечень уникальных значений столбца `children`.

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

Ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.

In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

Заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`.

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

Убедимся, что все пропуски заполнены.

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

Заменим вещественный тип данных в столбце total_income на целочисленный с помощью метода astype().

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

Выведем на экран количество строк-дубликатов в данных.

In [14]:
data.duplicated().sum()

54

In [15]:
# удалим дубликаты
data = data.drop_duplicates()

Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру.

In [16]:
data['education'] = data['education'].str.lower()

### Категоризация данных

Категорезируем заемщиков в зависимости от их доходов, на основании следующих диапазонов:
- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [17]:
# создаем функцию categorize_income()
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
# применим функцию методом apply()
data['total_income_category'] = data['total_income'].apply(categorize_income)

Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`.

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` появится строка `'операции с автомобилем'`.

In [20]:
# создадим функцию categorize_purpose()
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
# применим функцию методом apply()
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

## Исследуйте данные и ответьте на вопросы

Сперва посмотрим, есть ли зависимость между количеством детей и возвратом кредита в срок.

In [22]:
#Создадим таблицу, сгруппированною по количеству детей у заемщика 
#в столбце amount указано общее количество заемщиков 
#в столбце bebt указано, у скольких заемщиков есть задолженность
#в столбце debt_children_percent указан процент заемщиков, у которых есть задолженность по сравнению с их общим числом
grouped_children = data.groupby('children').agg({'children': 'count', 'debt': 'sum'})
grouped_children['debt_chidren_percent'] = grouped_children['debt'] / grouped_children['children'] * 100
grouped_children = grouped_children.rename(columns={'children': 'amount'})
grouped_children

Unnamed: 0_level_0,amount,debt,debt_chidren_percent
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14107,1063,7.535266
1,4809,444,9.232689
2,2052,194,9.454191
3,330,27,8.181818
4,41,4,9.756098
5,9,0,0.0


**Выводы:** 
1. По заемщикам с 3-5 детьми трудно сделать однозначные выводы из-за небольшой выборки. Заемщиков с 5 детьми всего 9, и даже, если у одного из них появится долг, то это сильно изменит статистику. У заемщиков с 3-4 детьми ситуация лучше, но измнение числа должников хотя бы на несколько человек, тоже может существенно повлиять на уровень задолженности. Поэтому я считаю, что выводы делать лучше на основе групп людей, у которых число детей от 0 до 2.
2. Процент должников среди тех, у кого нет детей, ниже, чем у заемщиков с детьми. Разница не такая большая (менее 2%), однако для целей построения скорринговой модели этот параметр можно учитывать при решении о выдачи кредита.
3. Разница между должниками с 1 или 2 детьми составляет всего ~0,2% и это может вполне быть статистической погрешностью, поэтому я бы не делал однозначные выводы о том, что эти группы существенно отличаются.

Посмотрим, есть ли зависимость между семейным положением и возвратом кредита в срок.

In [23]:
#создадим таблицу, сгруппированною по семейному статусу заемщика 
#в столбце amount указано общее количество заемщиков 
#в столбце bebt указано, у скольких заемщиков есть задолженность
#в столбце debt_family_percent указан процент заемщиков, у которых есть задолженность по сравнению с их общим числом
grouped_family = data.groupby('family_status').agg({'family_status': 'count', 'debt': 'sum'})
grouped_family['debt_family_percent'] = grouped_family['debt'] / grouped_family['family_status'] * 100
grouped_family = grouped_family.rename(columns={'family_status': 'amount'}).sort_values('debt_family_percent', ascending=False)
grouped_family

Unnamed: 0_level_0,amount,debt,debt_family_percent
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2796,273,9.763948
гражданский брак,4146,385,9.286059
женат / замужем,12266,927,7.557476
в разводе,1189,84,7.06476
вдовец / вдова,951,63,6.624606


**Вывод:** наблюдается явная связь между уровнем задолженности от семейного статуса должников. Основная гипотеза, что ключевой параметр - это возраст. Самая большая доля долгов - у неженатых/незамужних. На втором месте у тех, кто в гражданском браке, третье место у замужних. Наименьшая доля задолженности - у разведенных или у тех, кто потерял супруга. Наблюдается явная тенденция: люди с семейным статусом, который ассоциируется с молодым возрастом, имеют большую долю задолженности, а у разведенных/вдовцов, то есть у наиболее зрелых людей, у которых предположительно есть финансовые накопления и большая финансовая грамотность/осознанность, доля задолженности ниже. На самом деле, здесь лучше провести дополнительное исследование по возрасту, так как, возможно, этот параметр лучше впишется в скоринговую модель, а параметр "семейный статус" будет его понапрасну дублировать.

**Дополнительное исследование по возрасту для проверки гипотезы о семейном статусе**

In [24]:
#создадим функцию age_group, которая разделяет заемщиков на 4 крупных когорты в зависимости от возраста
def age_group(age):
    if age <= 29:
        return 'молодой'
    elif 30 <= age <= 44:
        return 'взрослый'
    elif 45 <= age <= 59:
        return 'зрелый'
    elif 60 <= age:
        return 'пожилой'
        

In [25]:
#применим функцию age_group
data['age_group'] = data['dob_years'].apply(age_group)
data['age_group']

0        взрослый
1        взрослый
2        взрослый
3        взрослый
4          зрелый
           ...   
21520    взрослый
21521     пожилой
21522    взрослый
21523    взрослый
21524    взрослый
Name: age_group, Length: 21348, dtype: object

In [26]:
#создадим таблицу, сгруппированною по возрастной когорты заемщика 
#в столбце amount указано общее количество заемщиков 
#в столбце bebt указано, у скольких заемщиков есть задолженность
#в столбце debt_age_percent указан процент заемщиков, у которых есть задолженность по сравнению с их общим числом
grouped_age = data.groupby('age_group').agg({'age_group': 'count', 'debt': 'sum'})
grouped_age['debt_age_percent'] = grouped_age['debt'] / grouped_age['age_group'] * 100
grouped_age = grouped_age.rename(columns={'age_group': 'amount'}).sort_values('debt_age_percent', ascending=False)
grouped_age

Unnamed: 0_level_0,amount,debt,debt_age_percent
age_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
молодой,3267,357,10.927456
взрослый,8470,771,9.102715
зрелый,7114,481,6.761316
пожилой,2497,123,4.925911


**Вывод**: действительно, если провести аналогичное исследование, но вместо семейного статуса подставить возрастную когорту, то зависимость является еще более явной. Чем старше люди, тем в среднем меньшая доля среди них должников. Возможно, возраст тоже не окончательный параметр и меньшая доля долгов связана не напрямую с возрастом, а с тем, что в среднем зрелые и пожилые люди имеют больший доход в силу своего опыта и сбережений. Это следует проверить в следующих этапах. 

Посмотрим, есть ли зависимость между уровнем дохода и возвратом кредита в срок.

In [27]:
#Создадим таблицу, сгруппированною по категориям доходов, которые были выделены в первой части проекта
#в столбце amount указано общее количество заемщиков 
#в столбце bebt указано, у скольких заемщиков есть задолженность
#в столбце debt_age_percent указан процент заемщиков, у которых есть задолженность по сравнению с их общим числом
grouped_income = data.groupby('total_income_category').agg({'total_income_category': 'count', 'debt': 'sum'})
grouped_income['group_income_percent'] = grouped_income['debt'] / grouped_income['total_income_category'] * 100
grouped_income = grouped_income.rename(columns={'total_income_category': 'amount'}).sort_values('group_income_percent',
                                                                                                ascending=False)
grouped_income

Unnamed: 0_level_0,amount,debt,group_income_percent
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,22,2,9.090909
C,15938,1353,8.489145
A,25,2,8.0
B,5014,354,7.060231
D,349,21,6.017192


Из данной таблицы вряд ли можно сделать какие-то выводы, так как группы заемщиков распределены крайне неравномерно. Группы E и A слишком малы и нерепрезентативны, а группа C включает в себя более двух третей выборки. Поэтому более рациональным вариантом является содание новой категоризации с 4 группами на основе квартилей распределения: 1 группа ("низкий доход") будет включать в себя заемщиков, у которых доход меньше 1 квартиля доходов (25%) всей выборки, 2 группа ("доход ниже среднего") включает в себя всех заемщиков, у которых доходы больше или равны 1 квартилю и меньше медианы (2 квартиль). 3 группа ("доход выше среднего") и 4 группа ("высокий доход") объединены по аналогичной логике. 

In [28]:
#Создадим новую функцию, которая будет разбивать заемщиков на 4 группы в зависимости от дохода
def income_4_group(income):
    if income < data['total_income'].quantile(0.25):
        return 'низкий доход'
    elif data['total_income'].quantile(0.25) <= income < data['total_income'].quantile(0.5):
        return 'доход ниже среднего'
    elif data['total_income'].quantile(0.5) <= income < data['total_income'].quantile(0.75):
        return 'доход выше среднего'
    elif income >= data['total_income'].quantile(0.75):
        return 'высокий доход'

In [29]:
#Применяем новую функцию
data['income_4_group'] = data['total_income'].apply(income_4_group)

In [30]:
#создадим таблицу, сгруппированною по новой категоризации доходов с 4 группами
#в столбце amount указано общее количество заемщиков 
#в столбце bebt указано, у скольких заемщиков есть задолженность
#в столбце debt_age_percent указан процент заемщиков, у которых есть задолженность по сравнению с их общим числом
grouped_4_income = data.groupby('income_4_group').agg({'income_4_group': 'count', 'debt': 'sum'})
grouped_4_income['group_income_percent'] = grouped_4_income['debt'] / grouped_4_income['income_4_group'] * 100
grouped_4_income = grouped_4_income.rename(columns={'income_4_group': 'amount'}).sort_values('group_income_percent', ascending=False)
grouped_4_income

Unnamed: 0_level_0,amount,debt,group_income_percent
income_4_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
доход ниже среднего,4388,382,8.705561
доход выше среднего,6286,542,8.622335
низкий доход,5337,427,8.000749
высокий доход,5337,381,7.138842


 Новая категоризация оказалось более сбалансированной и разделяет пайщиков на сопоставимые по размеру группы. Результаты исследования оказались неожиданными. Интуитивно можно сделать вывод, чем больше доходов у заемщика, чем меньше вероятность того, что у него будет задолженность. Однако это предположение оказалось верным только частично. Действительно, заемщики с самыми высокими доходами имеют наиболее низкий процент задолженнности (7,1%), но следом за ними идет не заемщики с доходами выше среднего, а те, у которых низкие доходы (уровень задолженности - 8%). Группа "доход ниже среднего" и "доход выше среднего" показали примерно одинаковый уровень задолженности - 8,7% и 8,6%. Таким образом, на данный момент связь между доходами воспринимается нелинейно. Чтобы подвердить данный вывод можно провести дополнительное исследование, разбив заемщиков на 3 группы, чтобы выделить в отдельую группу заемщиков, с доходами, близкими к средним.

In [31]:
#создадим новую функцию, аналогичную предыдущей, но с разбивкой на три группы, используя 33 и 67 персентили
# (делим выборку на 3 приблизительно равные части)
def income_3_group(income):
    if income < data['total_income'].quantile(0.33):
        return 'низкий доход'
    elif data['total_income'].quantile(0.33) <= income < data['total_income'].quantile(0.67):
        return 'средний доход'
    elif income >= data['total_income'].quantile(0.67):
        return 'высокий доход'

In [32]:
#применяем новую функцию
data['income_3_group'] = data['total_income'].apply(income_3_group)

In [33]:
#создадим таблицу, сгруппированною по новой категоризации доходов с 3 группами
#в столбце amount указано общее количество заемщиков 
#в столбце bebt указано, у скольких заемщиков есть задолженность
#в столбце debt_age_percent указан процент заемщиков, у которых есть задолженность по сравнению с их общим числом
grouped_3_income = data.groupby('income_3_group').agg({'income_3_group': 'count', 'debt': 'sum'})
grouped_3_income['group_income_percent'] = grouped_3_income['debt'] / grouped_3_income['income_3_group'] * 100
grouped_3_income = grouped_3_income.rename(columns={'income_3_group': 'amount'}).sort_values('group_income_percent', ascending=False)
grouped_3_income

Unnamed: 0_level_0,amount,debt,group_income_percent
income_3_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
средний доход,7189,634,8.819029
низкий доход,6677,543,8.132395
высокий доход,7482,555,7.417803


Категоризация с тремя группами также показала нелинейную связь между доходами и уровнем возврата кредита в срок. Наибольший уровень задолженности у группы "средний доход". Первая гипотеза, которая находится на поверхности, что это как-то связано с тем, что мы заполнили медианным значением пропуски в данных. Таких значений было 2174, и они могли существенно исказить группу со средним доходом. Причины появления этих пропусков неизвестны. Они могли быть связаны с тем, что заемщики не хотят указывать уровень своих доходов, который либо очень низкий, либо и вовсе отстутсвует. Если это так, уровень задолженности среди таких заемщиков должна быть выше. Эту гипотезу необходимо проверить.

In [34]:
#загружаем новый датасет, где пропуски еще не были заменены
data1 = pd.read_csv('/datasets/data.csv')

In [35]:
#выделяем датасет только с заемщиками с пропусками и смотрим, какая среди них доля должников
data_null = data1[data1['total_income'].isnull()]
data_null_agg = data_null.agg({'income_type': 'count', 'debt': 'sum',})
data_null_agg['debt_percent'] = data_null_agg[1]/ data_null_agg[0] * 100
data_null_agg


income_type     2174.000000
debt             170.000000
debt_percent       7.819687
dtype: float64

Пока кажется, что гипотеза себя не оправдала: уровень задолженности среди заемщиков, у которых не был указан доход, составляет всего 7.8%, что не выбивается из общего тренда. Но на всякий случай следует проверить выборку, очищенную от заемщиков, у которых не указан доход.

In [36]:
#создаем датафрейм, где бы не было заемщиков с пустыми значениями и проверяем, действительно ли они были удалены
data_not_null = data1[data1['total_income'].isnull() == False]
data_not_null.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

In [37]:
#создаем новую функцию для категоризации заемщиков на 3 группы по доходам, но для заемщиков, у которых не было пустных значений
def income_3_group_not_null(income):
    if income < data_not_null['total_income'].quantile(0.33):
        return 'низкий доход'
    elif data_not_null['total_income'].quantile(0.33) <= income < data_not_null['total_income'].quantile(0.67):
        return 'средний доход'
    elif income >= data_not_null['total_income'].quantile(0.67):
        return 'высокий доход'

In [38]:
#применяем новую функцию
data_not_null['income_3_group'] = data_not_null['total_income'].apply(income_3_group_not_null)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_not_null['income_3_group'] = data_not_null['total_income'].apply(income_3_group_not_null)


In [39]:
#создадим таблицу, сгруппированною по новой категоризации доходов с 3 группами для заемщиков, у которых не было пустных значений
#в столбце amount указано общее количество заемщиков 
#в столбце bebt указано, у скольких заемщиков есть задолженность
#в столбце debt_age_percent указан процент заемщиков, у которых есть задолженность по сравнению с их общим числом
grouped_3_income_not_null = data_not_null.groupby('income_3_group').agg({'income_3_group': 'count', 'debt': 'sum'})
grouped_3_income_not_null['group_income_percent'] = grouped_3_income_not_null['debt'] / grouped_3_income_not_null['income_3_group'] * 100
grouped_3_income_not_null = grouped_3_income_not_null.rename(columns={'income_3_group': 'amount'}).sort_values('group_income_percent', ascending=False)
grouped_3_income_not_null

Unnamed: 0_level_0,amount,debt,group_income_percent
income_3_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
средний доход,6579,575,8.73993
низкий доход,6386,519,8.127153
высокий доход,6386,477,7.469464


Гипотиза оказалась неверной. Пропущенные значения практически никак не искажали выборку. Все также сохранилась нелинейная зависимость между доходами и уровнем возврата кредита: больше всего заемщиков, имеющих наибольшую долю задолженности по возврату кредитов, находятся в группе со средними доходами относительно других групп. При этом группы с низким и высоким доходом вновь показали себя лучше, чем группа со средними доходами. Из-за этого вывода становится еще более интересным выявленный факт линейной зависимости между возрастом и возвратом кредита. Предполагалось, что уровень задолженности среди старшего поколения меньше в основном из-за того, что у них уровень доходов выше, чем у более молодых. Однако выявленная нелинейная связь между уровнем доходов и возвратом кредита побуждает провести дополнительное исследование и посмотреть, какой уровень задолженности в разрезе как возраста, так и дохода.

In [40]:
#Для этого создаем таблицу, сгрупированную как по возрасту, так и по доходу. 
#в столбце amount указано общее количество заемщиков 
#в столбце bebt указано, у скольких заемщиков есть задолженность
#в столбце debt_age_percent указан процент заемщиков, у которых есть задолженность по сравнению с их общим числом
grouped_income_age = data.groupby(['age_group', 'income_3_group']).agg({'income_3_group': 'count', 'debt': 'sum'})
grouped_income_age['group_income_percent'] = grouped_income_age['debt'] / grouped_income_age['income_3_group'] * 100
grouped_income_age = grouped_income_age.rename(columns={'income_3_group': 'amount'})
grouped_income_age

Unnamed: 0_level_0,Unnamed: 1_level_0,amount,debt,group_income_percent
age_group,income_3_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
взрослый,высокий доход,3331,254,7.625338
взрослый,низкий доход,2301,234,10.169492
взрослый,средний доход,2838,283,9.971811
зрелый,высокий доход,2483,177,7.128474
зрелый,низкий доход,2262,139,6.145004
зрелый,средний доход,2369,165,6.964964
молодой,высокий доход,1067,100,9.372071
молодой,низкий доход,1065,121,11.361502
молодой,средний доход,1135,136,11.982379
пожилой,высокий доход,601,24,3.993344


Результатом являются данные совершенно разного характера. Среди группы "взрослые" (30-44 года) зависимость между доходами и уровнем задолженности распределяется линейно: наибольший уровень задолженности - у заемщиков с низким уровнем дохода, наименьший - у заемщиков в высоким уровнем дохода. У "молодых" (меньше 30 лет) и "пожилых" (от 60 лет и больше) зависимость между уровнем дохода и задолженностью полностью совпадает с той, которая была обнаружена у всей выборки в целом. При этом уровень задолженности значительно различается между данными возрастными группами. Наиболее контринтуитивный вариант наблюдается у группы "зрелые" (45-59 лет), у которых чем больше доход, тем больший уровень задолженности.

**Вывод:** результат данного исследования оказался наиболее неоднозначным. Если рассматривать всю выборку целиком, то обнаруживается нелинейная зависимость между уровне дохода и задолженности. Наибольший уровень задолженности оказался у тех людей, у которых уровень дохода близок к медианному по выборке. При этом, если рассматривать различные возрастные группы, то наблюдаются совершенно разные паттерны того, как доход влияет на уровень задолженности. Поэтому использовать для скоринговой модели показатель уровня дохода необходимо крайне аккуратно, учитывая другие характеристики заемщика и то, как они могут взаимодействовать между собой.

Посмотрим, как разные цели кредита влияют на его возврат в срок.

In [41]:
#Создадим таблицу, сгрупированную как по целям кредита. 
#в столбце amount указано общее количество заемщиков 
#в столбце bebt указано, у скольких заемщиков есть задолженность
#в столбце debt_age_percent указан процент заемщиков, у которых есть задолженность по сравнению с их общим числом
grouped_purpose = data.groupby('purpose_category').agg({'purpose_category': 'count', 'debt': 'sum'})
grouped_purpose['group_income_percent'] = grouped_purpose['debt'] / grouped_purpose['purpose_category'] * 100
grouped_purpose = grouped_purpose.rename(columns={'purpose_category': 'amount'})
grouped_purpose

Unnamed: 0_level_0,amount,debt,group_income_percent
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,4281,400,9.343611
операции с недвижимостью,10754,780,7.253115
получение образования,3989,369,9.250439
проведение свадьбы,2324,183,7.874355


**Вывод:** наименьший уровень задолженности наблюдается в группе кредитов, взятых для целей операции с недвижимостью. Возможно, это связано с большей ответственностью заемщиков, так как в качестве санкций за невозврат долга, они могут лишиться недвижимого имущества. На втором месте находятся кредиты, связанные с проведением свадьбы. Наибольший же уровень задолженности у заемщиков, которые берут кредит для получения образования и операций с автомобилем.

## Общий вывод.

1. На уровень возврата кредита явно влияет сам факт наличия детей или их отсутствия. У тех, у кого они есть, уровень задолженности выше, чем у тех, у которых нет детей. При этом существенной разницы между заемщиками с 1 или 2 детьми обнаружить не удалось, а для анализа должников с 3 детьми и более необходима бОльшая выборка, так как текущие данные могут быть не репрезентативны. 
2. Влияние семейного статуса на уровень возврата кредита обнаружить удалось, однако, по моему мнению, связь наблюдается опосредованная. Уровень задолженности ниже у тех заемщиков, у которых семейных статус ассоциируется со старшим возрастом: разведен/разведена или вдова/вдовец. Для того, чтобы это подтвердить, было проведено дополнительное исследования зависимости возраста и уровеня возрата кредитов, и была обнаружена еще более явная связь. Поэтому лучше при создании скоринговой модели использовать возраст клиента, а не его семейный статус.
3. Влияние дохода на уровень задолженности оказалось более неоднозначным. Обнаружилась нелинейная связь: высокий уровень задолженности относительно других групп в рамках всей выборки обнаружился у заемщиков со средним уровнем дохода. При этом если рассматривать различные возрастные группы, то уровень дохода по-разному влияет на уровень задолженности в рамках данных групп. Данный параметр необходимо изучить более внимательно, возможно, проверить на других выборках, чтобы понять причины нелинейной связи.
4. Кредиты, которые берутся для операций с недвижимостью, а также для проведения свадьбы, имеют меньший уровень задолженности в отличие от кредитов для получения образования или для приобретения автомобиля, что можно учесть при создании скоринговой модели.