# ПРОЕКТ
# Влияние семейного положения и количества детей у заемщика на факт возврата кредита в срок.

##### Вопросы для исследования:

•	Есть ли зависимость между наличием детей и возвратом кредита в срок?
•	Есть ли зависимость между семейным положением и возвратом кредита в срок?
•	Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
•	Как разные цели кредита влияют на его возврат в срок?


##### Исходные данные:

файл со статистикой по клиентам банка: '/datasets/data.csv'

## Задание 1. Проведение исследования.

##### Импорт необходимых библиотек:

In [1]:
import pandas as pd

# импорт библиотек для лемматизации:
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

Создание вспомогательных функций:

In [2]:
# вывод основных данных 
def brief(df_columns):
    print('Образец:')
    print(df_columns.head())
    print('основные характеристики:')
    print('Минимум:', df_columns.min())
    print('Максимум:', df_columns.max())
    print('Среднее:', df_columns.mean())
    print('Медиана:', df_columns.median())
    print('Количество пропусков:', df_borrowers[column].isna().sum()) # похоже, что здесь нужно переименовать переменную


### Шаг 1. Открытие файла с данными и изучение общей информации

Загрузка исходного файла с данными:

In [3]:
df_borrowers = pd.read_csv('/datasets/data.csv')

#### Просмотр данных, их первичная оценка и формат полей:

In [4]:
df_borrowers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [5]:
df_borrowers.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [6]:
for column in df_borrowers.columns:
    print(column, '\n', df_borrowers[column].unique())
    print('Количество пропусков:', df_borrowers[column].isna().sum(), '\n')

children 
 [ 1  0  3  2 -1  4 20  5]
Количество пропусков: 0 

days_employed 
 [-8437.67302776 -4024.80375385 -5623.42261023 ... -2113.3468877
 -3112.4817052  -1984.50758853]
Количество пропусков: 2174 

dob_years 
 [42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]
Количество пропусков: 0 

education 
 ['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']
Количество пропусков: 0 

education_id 
 [0 1 2 3 4]
Количество пропусков: 0 

family_status 
 ['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']
Количество пропусков: 0 

family_status_id 
 [0 1 2 3 4]
Количество пропусков: 0 

gender 
 ['F' 'M' 'XNA']
Количество пропусков: 0 

income_type 
 ['сотрудник' 'пен

#### План действий по предварительной подготовке данных в колонках:

children - количественный. есть недостоверные данные '-1' и '20'. Проверить записи, возможно опечатка ввода данных. Если '20' единичная запись - целосообразно удалить, поскольку данное значение будет влиять на показатели, но не является харрактерным.

days_employed - преобразовать в целочисленный формат.

days_employed и total_income - имеют пропущенные значения. Проверить их совпадают ли они по записям.


dob_years - колличественный, без изменений

education и education_id - категориальный.  
В поле 'education' - разброс написания прописных и строчных букв, 
привести к строчному формату, проверить соответствие с education_id.

family_status и family_status_id	- действия аналогично предыдущему

gender - проверить 'XNA'	

income_type	- без изменений 

debt - 	без изменений	

total_income - преобразовать формат в целочисленный.

purpose - множество сходных по смыслу целей, необходимо лемматизировать

### Шаг 2. Предобработка данных.

### Проверка массива на наличие дубликатов:

In [7]:
# Подсчет общего количества полных дубликатов
df_borrowers.duplicated().sum()

54

In [8]:
# Общее число предполагаемых дубликатов 54. 
# В исходной таблице отсутсвует уникальный ID клиента, 
# другой характеристикой имеющей широкий диапазон и позволяющей говорить об уникальности является 'total_income'
# Выполним проверку содержат ли предполагаемы "дубликаты" сведения о доходах клиентов:
bor_dublicates = df_borrowers.loc[df_borrowers['total_income'] != 0].loc[df_borrowers.duplicated()==True]
bor_dublicates['children'].value_counts() 

0    42
1     9
2     3
Name: children, dtype: int64

Вывод: у всех дубликатов отсутствуют значения в поле  'total_income'
Таким образом выявленные "дубликаты" скорее всего являются совпадением характеристик клиентов. 
Также они содержат целевые данные о наличии/отсутствии детей у заемщиков.
Целесообразно эти данные оставить.

##### 'gender'

In [9]:
# в колонке 'gender' пол, кроме корректных значений, есть значения 'XNA'
# выполняем проверку их количества:
df_borrowers['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [10]:
# удаляем некорректное значение из таблицы:
df_borrowers.drop(df_borrowers[df_borrowers.gender == 'XNA'].index, inplace=True)
## можно проще на мой взгляд: df_borrowers = df_borrowers[df_borrowers.gender != 'XNA']) , но тут как самому больше нравится..

# выполняем проверку. Все в порядке, строка удалена.
df_borrowers['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

### Преобразование типа данных

##### 'education'  'education_id '

In [11]:
# преобразование данных столбца 'education' к нижнему регистру:
df_borrowers['education'] = df_borrowers['education'].str.lower()
df_borrowers['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      743
начальное                282
ученая степень             6
Name: education, dtype: int64

In [12]:
# проверим соответствие количества значений по категориям 'education' и 'education_id':
df_borrowers['education_id'].value_counts()

1    15233
0     5260
2      743
3      282
4        6
Name: education_id, dtype: int64

Теперь с 'education' все в порядке.

##### 'family_status'  'family_status_id'

In [13]:
# преобразование данных столбца 'family_status' к нижнему регистру:
df_borrowers['family_status'] = df_borrowers['family_status'].str.lower()
df_borrowers['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4176
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [14]:
# проверим соответствие количества значений по категориям 'family_status' и 'family_status_id':
df_borrowers['family_status_id'].value_counts()

0    12380
1     4176
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64

Теперь с 'family_status' все в порядке.

##### 'days_employed' - преобразование типа

In [15]:
# преобразование данных столбца 'days_employed' в положительное целое число
# данные NaN остаются без изменений
mistake = 0
new_column = []
for val in df_borrowers['days_employed']:
    try:
        val = int(abs(val))    
    except:
        mistake +=1
    new_column.append(val)

df_borrowers['days_employed'] = new_column
print('Число ошибок при конвертации:', mistake)

brief(df_borrowers['days_employed'])

Число ошибок при конвертации: 2174
Образец:
0      8437.0
1      4024.0
2      5623.0
3      4124.0
4    340266.0
Name: days_employed, dtype: float64
основные характеристики:
Минимум: 24.0
Максимум: 401755.0
Среднее: 66917.56583979329
Медиана: 2194.0
Количество пропусков: 0


##### 'days_employed' - обработка данных о стаже

In [16]:
# В соответствии с законодательством РФ и СССР прием на работу допускается с 14 лет.
# В колонке 'dob_years' значения превышают и этот уровень и возраст заемщика.
print('Заемщики со стажем превышающим начало работы с 14 лет:',
    df_borrowers.loc[(df_borrowers['days_employed'] / 365) > (df_borrowers['dob_years'] - 14)]['dob_years'].shape[0])
print('Заемщики со стажем превышающим возраст:',
    df_borrowers.loc[(df_borrowers['days_employed'] / 365) > (df_borrowers['dob_years'])]['dob_years'].shape[0])


Заемщики со стажем превышающим начало работы с 14 лет: 3535
Заемщики со стажем превышающим возраст: 3519


In [17]:
empty = df_borrowers.loc[df_borrowers['days_employed'].isna() == True].loc[df_borrowers['total_income'].isna() == True]
print('Число записей с пропусками в обоих категориях:', len(empty))
empty.groupby('children').agg({'children': 'count', 'debt' : 'count'})

Число записей с пропусками в обоих категориях: 2174


Unnamed: 0_level_0,children,debt
children,Unnamed: 1_level_1,Unnamed: 2_level_1
-1,3,3
0,1439,1439
1,475,475
2,204,204
3,36,36
4,7,7
5,1,1
20,9,9


Записи в которых отсутствуют данные по трудовому стажу и доходу в месяц совпадают.
Поскольку основная цель исследования влияние семейного статуса и наличие детей на надежность заемщика и эта информация присутствует, то эти записи оставляем для основного исследования.

##### 'total_income' 

In [18]:
# аналогичные преобразования для данных столбца 'total_income' 
# данные NaN остаются без изменений
mistake = 0
new_column = []
for val in df_borrowers['total_income']:
    try:
        val = int(abs(val))    
    except:
        mistake +=1
    new_column.append(val)

df_borrowers['total_income'] = new_column
print('Число ошибок при конвертации:', mistake)

Число ошибок при конвертации: 2174


### Лемматизация данных

##### 'purpose' - создание категорий по лемматическому анализу

In [19]:
# Определяем самые частые леммы в столбце 'purpose':
df_borrowers['purpose'] = df_borrowers['purpose'].str.lower()
purpose = df_borrowers['purpose'].value_counts().reset_index()
purpose.set_axis(['purpose', 'count'], axis = 'columns', inplace=True)
lemma_total = ' '.join(purpose['purpose'])
print(Counter(m.lemmatize(lemma_total)))


Counter({' ': 96, 'недвижимость': 10, 'покупка': 10, 'автомобиль': 9, 'образование': 9, 'жилье': 7, 'с': 5, 'на': 4, 'операция': 4, 'свой': 4, 'свадьба': 3, 'строительство': 3, 'высокий': 3, 'получение': 3, 'коммерческий': 2, 'для': 2, 'жилой': 2, 'заниматься': 2, 'сделка': 2, 'дополнительный': 2, 'проведение': 1, 'сыграть': 1, 'сдача': 1, 'семья': 1, 'собственный': 1, 'со': 1, 'ремонт': 1, 'подержанный': 1, 'подержать': 1, 'приобретение': 1, 'профильный': 1, '\n': 1})


Приориет для категорий отдаем существительным.
Выявлены основные леммы: недвижимость и жилье, автомобиль, образование, свадьба.
Выполняем преобразование записей содержащих указанные леммы в новые категории:
- недвижимость коммерческая (недвижимость + коммерческий)
- невижимость жилая (недвижимость + (жилой, собственный); жилье)
- автомобиль
- образование
- свадьба

In [20]:
# Создан словарь замены лемм на новые категории.
# !!! Замена производится в порядке записи в словаре. УЧИТЫВАТЬ ПРИ СОСТАВЛЕНИИ !!!
purpose_dict = [['недвижимость коммерческая', 'недвижимость', 'коммерческий'],
                ['недвижимость жилая', 'недвижимость', 'собственный'],
                ['недвижимость жилая', 'недвижимость', 'жилой'],
                ['недвижимость жилая', 'жилье'],
                ['автомобиль', 'автомобиль'],
                ['образование', 'образование'],        # для чего здесь в трех категориях слова повторяются дважды?        
                ['свадьба', 'свадьба']  
               ]

purpose_new = []
count = 0
for val in df_borrowers['purpose']:
    for words in purpose_dict:
        if len(words)==3 and (words[1] and words[2] in m.lemmatize(val)):
            val = words[0]
            count += 1
        if len(words)==2 and words[1] in m.lemmatize(val):
            val = words[0]
            count += 1
    purpose_new.append(val) 

df_borrowers['purpose'] =  purpose_new

print('Всего произведено замен:', count)
print('Общая длина столбца', len(purpose_new))
df_borrowers['purpose'].value_counts()

Всего произведено замен: 18976
Общая длина столбца 21524


недвижимость жилая                 6341
автомобиль                         4315
образование                        4022
свадьба                            2348
недвижимость коммерческая          1315
операции с недвижимостью            676
недвижимость                        634
операции со своей недвижимостью     630
покупка недвижимости                623
строительство недвижимости          620
Name: purpose, dtype: int64

Осталось несколько категорий связанных с недвижимостью, однако из названия неясно к какому виду она относится 'коммерческой' или 'жилой'. Выполняем замену этих значений на 'недвижимость':

In [21]:
purpose_list = ['операции с недвижимостью', 'операции со своей недвижимостью',
                'покупка недвижимости', 'строительство недвижимости']

purpose_new = []
count = 0
for val in df_borrowers['purpose']:
    for words in purpose_list:
        if words in val:
            val = 'недвижимость'
            count += 1
    purpose_new.append(val) 

df_borrowers['purpose'] =  purpose_new

print('Всего произведено замен:', count)
print('Общая длина столбца', len(purpose_new))
df_borrowers['purpose'].value_counts()

Всего произведено замен: 2549
Общая длина столбца 21524


недвижимость жилая           6341
автомобиль                   4315
образование                  4022
недвижимость                 3183
свадьба                      2348
недвижимость коммерческая    1315
Name: purpose, dtype: int64

##### 'purpose' - создание новых категорий закончено

### Определяем и заполняем пропущенные значения

##### 'children' - корреляция с 'dob_years'  и 'family_status'
Основными для нашего исследования являются два столбца: 'children' и 'debt'
в первую очередь занимаемся ими.

In [None]:
# группируем количество записей с разным числом детей 
df_borrowers.groupby('children').agg({'children': 'count', 'dob_years' : 'mean'})


##### Предполагаем, возрастной портрет групп с определенным числом детей и семейным полежением сходны.
В данных есть пиковые значения количества -1 и 20. Что в первом случае невозможно, а во втором маловероятно.
Проверим рабочую гипотезу "опечатка", возможно -1 это 1, а 20 это 2.
Вычисляем средний возраст по группам и проверяем коэф. корреляции с группами -1 и 20.

In [None]:
#df_borrowers.loc[df_borrowers['children'] ==  -1].groupby('family_status').agg({'children': 'count', 'dob_years' : 'mean'})
children_pivot_count = df_borrowers.pivot_table(
    index = ['children'], columns = ['family_status_id'], values =['dob_years'], aggfunc = 'count', margins=True)
# число заемщиков по группам число детей / сем. положение
print(children_pivot_count)

In [None]:
#  средний возраст заемщиков по группам число детей / сем. положение
children_pivot_dob_years = df_borrowers.pivot_table(
    index = ['children'], columns = ['family_status_id'], values =['dob_years'])

print(children_pivot_dob_years)
#print(children_pivot_dob_years.iloc[7])
# коэфф. корреляции с целевыми строками.
children_corr = pd.DataFrame(index=children_pivot_dob_years.index)
children_corr['-1'] = children_pivot_dob_years.corrwith(children_pivot_dob_years.iloc[0], axis=1)
children_corr['20'] = children_pivot_dob_years.corrwith(children_pivot_dob_years.iloc[7], axis=1)
children_corr

##### Гипотеза не подтвердилась. 
В группе с числом детей 5 слишком мало данных и брать ее для сравнения некорректно.
-1 имеет наиб. корреляцию с группой 3 чел.
20 - с группами 0 и 1 чел.
Принято решение удалить строки с некорректными данными.

In [None]:
# удаляем строки со значениями '-1' и '20'
df_borrowers.drop(df_borrowers[df_borrowers['children'] == -1].index, inplace=True)
df_borrowers.drop(df_borrowers[df_borrowers['children'] == 20].index, inplace=True)
df_borrowers.reset_index(drop=True)
# проверка результата
df_borrowers['children'].value_counts()

### Сводные таблицы с целевыми данными

In [None]:
# Для целевого исследования создаем отдельный столбец 'child_group' с логическим типом: есть дети / нет детей

def child_group(child):
        """
        Возвращает группу по наличию детей, используя правила:
        - '0' при значении children == 0
        - '1' при значениии children более 0
        """
        if child == 0:
            return 'False'
        return 'True'
df_borrowers.insert(1, 'child_group', df_borrowers['children'].apply(child_group)) 

##### Сводная таблица доля просрочек от наличия детей и семейного статуса:

In [None]:
# Сводная таблица доля просрочек от наличия детей и семейного статуса:
children_debt_sum_mod = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['family_status'], values =['debt'], aggfunc = 'sum', margins=True)
children_debt_count_mod = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['family_status'], values =['debt'], aggfunc = 'count', margins=True)
children_debt_mod = (children_debt_sum_mod / children_debt_count_mod)
children_debt_mod


Можно сделать вывод, что наличие детей у заемщиков ухудшает их надежность. 
Для группы бездетных средняя просрочка - 0.075
Для заемщиков с детьми - 0.091

Исследуем в более развернутом виде, выявляем зависимость от числа детей.

##### Сводная таблица доля просрочек от числа детей и семейного статуса:

In [None]:
# Сводная таблица доля просрочек от числа детей и семейного статуса:
children_debt_sum = df_borrowers.pivot_table(
    index = ['children'], columns = ['family_status'], values =['debt'], aggfunc = 'sum', margins=True)
children_debt_count = df_borrowers.pivot_table(
    index = ['children'], columns = ['family_status'], values =['debt'], aggfunc = 'count', margins=True)
children_debt = (children_debt_sum / children_debt_count)
children_debt

Во взятой системе координат "число детей - семейное положение" наименьшую просрочку имеют:
0.062 - 02 - бездетные вдовы и вдовцы
0.069 - 04 - бездетные женатые / замужем
0.067 - 13 - семьи с одним ребенком в разводе

Худший показатель для многодетных (4 ребенка) разведенных (44) - 0.5, т.е.  половина заемщиков имеет просрочку.
и заемщики в гражданском браке с 3 детьми - 0.143


##### Сводная таблица: доля просрочек по группировке наличие детей / цели кредита:

In [None]:
# Сводная таблица: доля просрочек по группировке наличие детей / цели кредита:
children_debt_porpose_sum = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['purpose'], values =['debt'], aggfunc = 'sum', margins=True)
children_debt_porpose_count = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['purpose'], values =['debt'], aggfunc = 'count', margins=True)
children_debt_porpose = (children_debt_porpose_sum / children_debt_porpose_count)
children_debt_porpose

In [None]:
# число кредитов по группировке наличие детей / цели кредита
children_debt_porpose_count

##### Сводная таблица: доля просрочек по группировке наличие детей / гендер:

In [None]:
# Сводная таблица: доля просрочек по группировке наличие детей / гендер:
children_debt_porpose_sum = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['gender'], values =['debt'], aggfunc = 'sum', margins=True)
children_debt_porpose_count = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['gender'], values =['debt'], aggfunc = 'count', margins=True)
children_debt_porpose = (children_debt_porpose_sum / children_debt_porpose_count)
children_debt_porpose.merge(children_debt_porpose_count, 
                            on='child_group', how='left', suffixes=('_доля проср.', '_к-во заемщиков'))

##### Сводная таблица: доля просрочек по группировке наличие детей / образование:

In [None]:
# Сводная таблица: доля просрочек по группировке наличие детей / образование:
children_debt_edu_sum = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['education'], values =['debt'], aggfunc = 'sum', margins=True)
children_debt_edu_count = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['education'], values =['debt'], aggfunc = 'count', margins=True)
children_debt_edu = (children_debt_edu_sum / children_debt_edu_count)
children_debt_edu.merge(children_debt_edu_count, 
                            on='child_group', how='left', suffixes=('_доля проср.', '_к-во заемщиков'))

##### Сводная таблица: доля просрочек по группировке гендер / образование (Доп. исследование):

In [None]:
# Сводная таблица: доля просрочек по группировке гендер / образование:
children_debt_edu_sum = df_borrowers.pivot_table(
    index = ['gender'], columns = ['education'], values =['debt'], aggfunc = 'sum', margins=True)
children_debt_edu_count = df_borrowers.pivot_table(
    index = ['gender'], columns = ['education'], values =['debt'], aggfunc = 'count', margins=True)
children_debt_edu = (children_debt_edu_sum / children_debt_edu_count)
children_debt_edu.merge(children_debt_edu_count, 
                            on='gender', how='left', suffixes=('_доля проср.', '_к-во заемщиков'))

##### Самые перспективные заемщики - женщины

In [None]:
df_borrowers.loc[df_borrowers['gender']== 'F'].loc[
    df_borrowers['education'] == 'высшее'].groupby('child_group').agg({'debt':['count', 'sum']})

##### Сводная таблица: доля просрочек по наличие наличие детей / тип занятости:

In [None]:
# Сводная таблица: доля просрочек по наличие наличие детей / тип занятости:
children_debt_income_type_sum = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['income_type'], values =['debt'], aggfunc = 'sum', margins=True)
children_debt_income_type_count = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['income_type'], values =['debt'], aggfunc = 'count', margins=True)
children_debt_income_type = (children_debt_income_type_sum / children_debt_income_type_count)
children_debt_income_type

In [None]:
children_debt_income_type_count

Данные NaN возникают ввиду отсутствия заемщиков данной категории.
основной вывод повторяется наличие детей ухудшает статистику.
Худшая категория по типу занятости - 'сотрудники' и 'компаньоны' c детьми.
Лучшие - госслужащие и пенсионеры.
У госслужащих аномальная закономерность - наличие детей улучшает статистику надежности с 0.068 до 0.046, т.е. на 2%

##### 'total_income' - cводная таблица: доля просрочек по группировке наличие детей / доходы:
Анализ по данной категории представляется неполноценным, поскольку размер доходов имеет смысл в сравнении с нагрузкой на заемщика. Также целессобразно учитывать общий доход семьи и ее размер. Такие данные отсутствуют.
В проводимом исследовании размер доходов рассматривается лишь как возможная обобщенная функция от остальных характеристик клиентов.

In [None]:
# краткая информация по столбцу:
brief(df_borrowers['total_income'])

In [None]:
# удаляем пропущенные значения 'total_income'
df_borrowers['total_income'].dropna(inplace=True)
df_borrowers.reset_index(drop=True)
#df_borrowers['total_income'].isna().sum()
print()

Введем несколько групп заемщиков в зависимости от размера дохода.
Диапазон группировки подбирается чтобы численность в группах заемщиков была соизмерима.
1. до 80 т.р.
2. от 80 до 120 т.р.
3. от 120 до 200 т.р.
4. свыше 200 т.р.

In [None]:
# Для целевого исследования создаем отдельный столбец 'income_group':

def income_group(income):
    if income < 80000:
        return '1'
    if  80000 <= income < 120000:
        return '2'
    if 120000 <=income < 200000:
        return '3'
    return '4'

df_borrowers.insert(9, 'income_group', df_borrowers['total_income'].apply(income_group))

In [None]:
df_borrowers['income_group'].value_counts()

In [None]:
# Сводная таблица: доля просрочек по группировке наличие детей / доход:
children_debt_income_sum = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['income_group'], values =['debt'], aggfunc = 'sum', margins=True)
children_debt_income_count = df_borrowers.pivot_table(
    index = ['child_group'], columns = ['income_group'], values =['debt'], aggfunc = 'count', margins=True)
children_debt_income = (children_debt_income_sum / children_debt_income_count)
children_debt_income.merge(children_debt_income_count, 
                            on='child_group', how='left', suffixes=('_доля проср.', '_к-во заемщиков'))

##### Вывод: общая тенденция повторяется, наличие детей снижает исполнительность заемщиков.
Лучше выглядит статистика "устойчивости к наличию детей" для 4 группы с доходом свыше 200 т.р. - изменение 0.8% 
Для 1-3 группы наличие детей ухудшает статистику просрочек на 2%.

### Задание 2. Выводы по исследованию.

#### Шаг 1. Выводы на изначально поставленные вопросы:

• Есть ли зависимость между наличием детей и возвратом кредита в срок? 

Есть. Согласно исследованию, без учета остальных факторов: 
наличие детей увеличивет количество просрочек на 2%, с 7.5% до 9.2%

• Есть ли зависимость между семейным положением и возвратом кредита в срок? 

Есть. Наименьшую просрочку имеют: 
6.2% - 02 - бездетные вдовы и вдовцы 
6.9% - 04 - бездетные женатые / замужем 
6.7% - 13 - семьи с одним ребенком в разводе

Худшие показатели:
- для многодетных (4 ребенка) разведенных (44) - 50%, т.е. половина заемщиков имеет просрочку,
- заемщики с 3 детьми в гражданском браке - 14.3% 

Большее число детей увеличивает нагрузку и в группе риска находятся неполные семьи.

•	Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Есть. Но более значимы другие факторы. Уровень дохода целесообразно сопоставлять с уровнем расходов.

Лучше выглядит статистика "устойчивости к наличию детей" для 4 группы с доходом свыше 200 т.р. - ухудшение 0.8% 
Для 1-3 группы наличие детей ухудшает статистику просрочек на 2%.


•	Как разные цели кредита влияют на его возврат в срок?

Наиболее безопасны кредиты выданные на жилую недвижимость -6.5% для бездетных, 7.6% с детьми.
НЕ ВЛИЯЕТ наличие детей для кредитов выданных на коммерческую недвижимость - 7.5%
Наиболее рискованны кредиты выданные на приобретение автомобиле и получение образования: 8.5% без детей до 10% с детьми.

#### Шаг 2. Общие выводы.

В результате проведенного исследования подтвердились общие предположения: наличие детей требует дополнительных расходов и увеличивает долю просроченных кредитов на 2% без учета остальных факторов.

##### Наиболее значимым фактором оказался уровень образования. Наличие высшего образования нивелирует фактор детей. Доля просрочек низкая, не зависит от наличия/отсутсвия детей и составляет 5.3%

##### Аномальные результаты получены для зависимости от рода занятости. Для госслужащих фактор наличия детей снижает просрочки с 6.8% до 4.6%
Наименее рисковы кредиты госслужащим и пенсионерам. Наибольшее число просрочек у 'сотрудников' и  'компаньонов' 

У мужчин доля просрочек не зависит от наличия детей и составляет около 10%
У женщин дисциплина во всех случаях выше, но с появлением детей просрочки возрастают с 6.1% до 8.7%, дельта 2.6%

Гипотезы для проверки на эктремум:

"Лучший заемщик" - женщина с высшим образованием замужем или в гражданском браке, госслужащая или пенсионер с кредитом на жилую недвижимость

"Рисковый заемщик" - мужчина со средним или начальным образованием, холостяк или в гражданском браке, работающий сотрудником или компаньон, с кредитом на автомобиль или образование.