# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Шаг 1. Открытие файла с данными и изучение общей информации

In [1]:
import pandas as pd
from pymystem3 import Mystem
from collections import Counter


df = pd.read_csv('/datasets/data.csv') #открываем файл csv и сохраняем в датасет data

df.info() #выводим общую информацию и изучаем данные

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод**

В предоставленном файле, мы видем, что кол-во строк в файле 21525. Однако не все столбцы заполнены в полном объеме(в колонках *days_employed* и *total_income* заполнено только 19351 строк), судя по всему есть пропущенные/незаполненые значения. 

Названия столбцов написаны согласно правилам Pep8.

Окрытие первых 5 строк данных, сразу показывает нам, что не все данные в столбцах записаны в единном стиле (например, в столбце *education* данные записаны, полностью малыми, так и полностью большими буквами, а также с большой буквы), так и на первый взгляд с ошибочными данными (например, в столбце *days_employed* в строке 4 данные сильно отклоняются от других 340266.072047, что это? 932 года человек работал при возрасте 53 года?).

Непонятны записи в колонке *days_employed*, почему данные записаны в формате float (с плавающей точкой), если данные должны выражаться в днях, а в данных, есть цифры после запятой. Так же мы видим, что основные данные в данной колонке со знаком минус, что также не есть хорошо. Однако, вполне вероятно, что эти данные нам вовсе и не понадобятся для анализа.

Есть вопросы к сотрудникам, кто подготовил эти данные. Однако в данный момент у нас нет возможности задать их. Следовательно, будем работать с теми данными, что есть, по ходу определим, что и какие данные нам нужны для достижения цели, поставленной задачи.

Исходя из задания, нам нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. 

Если действовать строго по задаче и условиям, то нам нужно проанализировать строго только влияние семейного положения и кол-ва детей. Однако стоит отметить, что другие данные, такие как пол человека, образование, тип занятости и уровень дохода, также напрямую могут повлиять на итоги по критериям семейное положение и количества детей. 

## Шаг 2. Предобработка данных

В данном блоке мы проведем предобработку представленных нам данных.

Стоит отметить, что не только то, что мы указали в предыдущем шаге вызывает сомнения.
    
Сомнительно, что данные в колонке *total_income*, а именно после запятой, слишком много цифр.

Будем исправлять и корректировать по ходу предобработки данных.

### Обработка пропусков

Выясним в каких столбцах у нас есть пропущенные значения.

In [2]:
df.isna().sum() #с помощью метода isna() определим, где у нас есть пропущенные значения

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски обнаружены в одном столбце *total_income* кол-во пропусков 2174. Это существенное кол-во и удалять строки будет неправильно, т.к. они могут значительно повлиять на результаты. Поэтому их нужно заполнить. Данный столбец относится к количественным данным.

In [3]:
#определим какими данными заполнены пропуски в столбце *total_income*, 
#путем сортировки по этому столбцу и выводу последних 5 строк
df.sort_values(by='total_income').tail() 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости
21510,2,,28,среднее,1,женат / замужем,0,F,сотрудник,0,,приобретение автомобиля


Видим, что данные пропуски заполнены значениями NaN. Не видно особых категорийных привязок к данным пропускам, поэтому вполне вероятно, что это могло произойти из-за сбоев при выгрузки, либо неверного заполнения данных. В связи с этим нужно уведомить коллег об этом.

Заполнять пустые значения будем медианными значениями с использованием группировки по типу занятости. Т.к. не правильно будет выставлять средние по всем данным (т.к. разброс может быть в группах велик) и также не правильно будет указать 0 (т.к. это может значительно исказить значения в итоговых группировках). 

Для этого выведим уникальные значения типа занятости и расчитаем, медианные значение доходов по этим группам. Если они будут значительно отличаться, значит наша гипотеза будет верной, и этими значениями мы заполним пропуски.

In [4]:
#определим все уникальные значения данных типа занятости 
#и сохраним их в list_income_type для дальнейшего использования
list_income_type = list(df['income_type'].unique())

In [5]:
#проверим действительно ли медианные значения в группах по типу занятости значительно отличаются
for i in list_income_type:
    print(f'Медианное значение по группе "{i}" - {round(df[df["income_type"] == i]["total_income"].median())}')

Медианное значение по группе "сотрудник" - 142594
Медианное значение по группе "пенсионер" - 118514
Медианное значение по группе "компаньон" - 172358
Медианное значение по группе "госслужащий" - 150448
Медианное значение по группе "безработный" - 131340
Медианное значение по группе "предприниматель" - 499163
Медианное значение по группе "студент" - 98202
Медианное значение по группе "в декрете" - 53829


Из данных видно, что медианные значения в разных группах значительно отличаются друг от друга. Соответственно, наша гипотеза верна.

Применим полученные значения к пропускам

In [6]:
#путем перебора значений подготовленных групп заменим значения на нужные нам
for i in list_income_type:
    df.loc[df['income_type'] == i, 'total_income'] = \
    df.loc[df['income_type'] == i, 'total_income'] \
    .fillna(df[df['income_type'] == i]['total_income'].median())

In [7]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [8]:
df['days_employed'] = df['days_employed'].abs()

Будем считать, что человек в среднем работает с 20 лет. Кто-то раньше начинает, кто-то позже.
Исходя из этого, вычислим рабочие дни так: возьмем возраст заемщика, вычтим 20 лет и умножим на кол-во рабочих дней в году (248 дней).

In [9]:
df.loc[df['days_employed'].isna(), 'days_employed'] = (df.loc[df['days_employed'].isna(), 'dob_years'] - 20) * 248

In [10]:
#Проверим на наличие пустот после заполнения значениями
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Все прошло успешно. Пустых значений в нашем рабочем dataframe более нет.

**Вывод**

Наша гипотеза подтвердилась, о том, что нам необходимо заменить пустые значения медианными значениями по группам. Мы успешно заполнили все пустоты.

### Замена типа данных

В исследуемой таблице, в столбце *total_income* (доход в месяц) значения указана в float формате, значений после точки слишком много, они как не могу повлиять на наши расчеты. Поэтому приведем значение к формату int. Это создаст еще и положительные эффекты, в виде простоты оперирования данными, а также более низкой нагрузки на сервер.

Для изменения типа данных, применим метод astype()

In [11]:
#методом astype() заменим значения колонки total_income на тип int
df['total_income'] = df['total_income'].astype('int') 
#методом astype() заменим значения колонки days_employed на тип int
df['days_employed'] = df['days_employed'].astype('int') 

In [12]:
df.head() #выведим первые 5 строк для проверки применения измениния типа

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


In [13]:
df.info() #проверим, действительно ли значения обновились на типовом уровне

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int64 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int64 
 11  purpose           21525 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


**Вывод**

Мы провели успешную замену значений в столбце *total_income* (доход в месяц) с типа float на тип данных int.

### Обработка дубликатов

Изначально мы должны проверить если в нашем dataframe дубликаты. Это мы можем сделать с помощью метода duplicated()

In [14]:
df.duplicated().sum() #проверим наличие дубликатов в dataframe

54

После проверки дубликатов стало 671. 

Так как ряд заполненной информации в столбцах записана не согласно инструкциям (а мы это уже видели при первичном изучении данных), ошибочно, приведем значения тех столбцов, где размещена текстовая информация к единому регистру.

Создадим list из столбцов со строковыми данными, чтобы перебрать его и перевести весь текст к нижнему регистру. Это позволит нам выявить дополнительные дубликаты с учетом ошибочного(не по инструкции) написания/заполнения текстовой информации и перезаписать значения.

In [15]:
#сформировали список столбцов
list_columns = ['gender', 'family_status', 'income_type', 'education', 'purpose']

#проходим по каждому столбцу из списка и приводим его текст к нижнему регистру
for column in list_columns:
    df[column] = df[column].str.lower()

Проверим сколько стало дубликатов после приведения в порядок данных.

In [16]:
df.duplicated().sum() #проверим дубликаты после приведения к нижнему регистру

71

Видим, что действительно после приведения к нижнему регистру, кол-во дублей увеличилось почти на 100 шт.

Далее, удалим все дубликаты с помощью метода drop_duplicates().

In [17]:
df = df.drop_duplicates().reset_index(drop=True) #Удаляем с использованием метода drop_duplicates() 
#и используем метод reset_index(drop=True) для того, чтобы не создавать столбец 
#со страрыми значениями индексов

Проведем проверку после удаления дубликатов.

In [18]:
df.duplicated().sum() #проверим наличие дубликатов, после применения метода удаления

0

In [19]:
df.info() #выведим общую информацию по данным

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21454 non-null  int64 
 1   days_employed     21454 non-null  int64 
 2   dob_years         21454 non-null  int64 
 3   education         21454 non-null  object
 4   education_id      21454 non-null  int64 
 5   family_status     21454 non-null  object
 6   family_status_id  21454 non-null  int64 
 7   gender            21454 non-null  object
 8   income_type       21454 non-null  object
 9   debt              21454 non-null  int64 
 10  total_income      21454 non-null  int64 
 11  purpose           21454 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


Возраст и трудовой стаж, в дальнейшем не будем использовать в текущем варианте исследования, т.к. не видна связь, с тем как это может повлиять на главные критерии - семейное положение, кол-во детей и другие. Все остальные столбцы оставляем.

Для осуществления задуманного и для удобства, мы выделим необходимые для нашей работы данные(столбцы) в отдельный dataframe и будем работать уже с ними.

In [20]:
#выделяем необходимые нам для работы, данные в отдельный dataframe
df = df[['gender', 'children', 'family_status', 'family_status_id', 'income_type', 'debt', 'education', 'education_id', 'total_income', 'purpose']].copy()
df.head()#выведим первые 5 строк нового dataframe

Unnamed: 0,gender,children,family_status,family_status_id,income_type,debt,education,education_id,total_income,purpose
0,f,1,женат / замужем,0,сотрудник,0,высшее,0,253875,покупка жилья
1,f,1,женат / замужем,0,сотрудник,0,среднее,1,112080,приобретение автомобиля
2,m,0,женат / замужем,0,сотрудник,0,среднее,1,145885,покупка жилья
3,m,3,женат / замужем,0,сотрудник,0,среднее,1,267628,дополнительное образование
4,f,0,гражданский брак,1,пенсионер,0,среднее,1,158616,сыграть свадьбу


**Вывод**

Все получилось на отлично. Дубликаты мы удалили, текстовые строки привели в порядок.

### Лемматизация

Импортируем модуль Mystem библиотеки pymystem3 Запись внесем наверху в самую первую строку проекта, согласно рекомендациям Pep8

In [21]:
m = Mystem() #сохраним функцию Mystem в переменную m

def lemma(text): # пишем функцию для лемматизации текста ячейки
    text_obr = m.lemmatize(text) # применим метод m.lemmatize к тексту и сохраним в text_obr
    return ''.join(text_obr).replace('\n', '') #

df['purpose_lemma'] = df['purpose'].apply(lemma) #применим нашу функцию и запишем в отдельный столбец


display(df.head()) #выведим получившийся dataframe

Unnamed: 0,gender,children,family_status,family_status_id,income_type,debt,education,education_id,total_income,purpose,purpose_lemma
0,f,1,женат / замужем,0,сотрудник,0,высшее,0,253875,покупка жилья,покупка жилье
1,f,1,женат / замужем,0,сотрудник,0,среднее,1,112080,приобретение автомобиля,приобретение автомобиль
2,m,0,женат / замужем,0,сотрудник,0,среднее,1,145885,покупка жилья,покупка жилье
3,m,3,женат / замужем,0,сотрудник,0,среднее,1,267628,дополнительное образование,дополнительный образование
4,f,0,гражданский брак,1,пенсионер,0,среднее,1,158616,сыграть свадьбу,сыграть свадьба


**Вывод**

Мы успешно провели лемматизацию. Создали отдельный столбец для лемматизированных данных. В дальнейшем мы сможем использовать эти данные для категоризации.

### Категоризация данных

Последовательно выполним категоризацию данных по столбцам

#### Категоризация данных по целям кредита

Одним из методов для подсчета количества встречаемости значений, можем применить метод Counter. Так и сделаем, импортируем метод Counter из библиотеки collections. Запись внесем в первую строку проекта, согласно рекомендациям Pep8

Применим метод Counter к списку значений столбца *purpose_lemma*, для того чтобы понять сколько и каких лемматизированных значений в столце.

In [22]:
#используем метод Counter() выведим все значения столбца purpose_lemma с кол-во значений
print(Counter(df['purpose_lemma']))  

Counter({'автомобиль': 972, 'свадьба': 791, 'на проведение свадьба': 768, 'сыграть свадьба': 765, 'операция с недвижимость': 675, 'покупка коммерческий недвижимость': 661, 'операция с жилье': 652, 'покупка жилье для сдача': 651, 'операция с коммерческий недвижимость': 650, 'покупка жилье': 646, 'жилье': 646, 'покупка жилье для семья': 638, 'строительство собственный недвижимость': 635, 'недвижимость': 633, 'операция со свой недвижимость': 627, 'строительство жилой недвижимость': 624, 'покупка недвижимость': 621, 'покупка свой жилье': 620, 'строительство недвижимость': 619, 'ремонт жилье': 607, 'покупка жилой недвижимость': 606, 'на покупка свой автомобиль': 505, 'заниматься высокий образование': 496, 'сделка с подержанный автомобиль': 486, 'на покупка подержать автомобиль': 478, 'свой автомобиль': 478, 'на покупка автомобиль': 471, 'приобретение автомобиль': 461, 'дополнительный образование': 460, 'сделка с автомобиль': 455, 'высокий образование': 452, 'образование': 447, 'получение до

Как мы видим, из списка явно выделяются следующие общие составляющие: автомобиль, свадьба, недвижимость/жилье, образование. Каждый из них составляет свою смысловую группу. В связи с этим, мы можем сформировать/объединить в следующие группы/категории:
1. На автомобиль
2. На свадьбу
3. На недвижимость
4. На образование

Категории получились краткие, и в тоже время понятные.

Чтобы применить данные категории, для этого напишем функцию по замене текущих данных на новые категории и применим к столбцу *purpose_lemma*.

In [23]:
#создадим функцию для замены значений в столбце purpose_lemma на созданные нами категории
def purpose_group_change(row): 
    if 'автомобиль' in row['purpose_lemma']: #для этого применим условия
        return 'на автомобиль' 
    elif 'свадьба' in row['purpose_lemma']:
        return 'на свадьбу'
    elif 'недвижимость' in row['purpose_lemma'] or 'жилье' in row['purpose_lemma']:
        return 'на недвижимость'
    else:
        return 'на образование'

In [24]:
#используя метод apply() применим нашу функцию purpose_group_change для столбца purpose_lemma
df['purpose_lemma'] = df.apply(purpose_group_change, axis=1) 

In [25]:
print(Counter(df['purpose_lemma'])) #выведим для проверки сформированные нами категории

Counter({'на недвижимость': 10811, 'на автомобиль': 4306, 'на образование': 4013, 'на свадьбу': 2324})


Мы успешно категоризировали данные о целях кредита.

#### Категоризация данных по наличию детей

Проработаем столбец с данными наличия детей. Для начала посмотрим, какие обозначения содержит столбец и их количество.

In [26]:
#выведим уникальные значения по столбцу children с помощью методов groupby() и count()
df.groupby('children')['children'].count()

children
-1        47
 0     14091
 1      4808
 2      2052
 3       330
 4        41
 5         9
 20       76
Name: children, dtype: int64

Мы видим что в столбце *children* есть не корректно заполненые значения -1 и 20. Можно предположить, что данные записи были введены не правильно при введении значений 1 (значение -1) и 2 (значение 20). Т.к. эти не корректные значения, составляют незначительную часть от предполагаемых групп, и существенно не исказят итоговые значения, скорректируем их и внесем в эти группы.

In [27]:
df['children'] = df['children'].replace(-1, 1) #заменим с помощью метода replace() -1 на 1
df['children'] = df['children'].replace(20, 2) #заменим с помощью метода replace() 20 на 2

In [28]:
df['children'].describe()

count    21454.000000
mean         0.480563
std          0.756069
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max          5.000000
Name: children, dtype: float64

In [29]:
#для проверки, все ли правильно сделали, выведим уникальные значения по столбцу children 
#с помощью метода value_counts()
df['children'].value_counts()

0    14091
1     4855
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

В связи с тем, что значения с 1 и 2 детьми каждое само по себе значительно, а также в связи с тем, что это один из основных запросов заказчика на проверку, не будем объединять их в одну группу. 

Кредиторов с 3 и более детьми относительно не так много, по сравнению с другими, их объединим в одну группу. 

Создадим следующие категории:
* 0 - без детей
* 1 - с 1 ребенком
* 2 - с 2 детьми
* 3 и более - многодетные

In [30]:
#создадим функцию для замены значений в столбце purpose_lemma на созданные нами категории
def children_group_change(row): 
    if row['children'] == 0: #для этого применим условия
        return 'без детей' 
    elif row['children'] == 1:
        return 'с 1 ребенком'
    elif row['children'] == 2:
        return 'с 2 детьми'
    else:
        return 'многодетные'

In [31]:
#применим функцию children_group_change по назначению
df['children_group'] = df.apply(children_group_change, axis=1)

Мы успешно категоризировали данные о наличие детей.

#### Категоризация данных по наличию долга

В условиях задания, нам не были указанны, какие значения колонки *debt* что означают. Что означает значение 1, а что 0? Узнать у заказчиков мы не можем. 

Следовательно, будем исходить из логики и оптимизма, о том каких результатов будет меньше, это и будет означать **наличие долга**.

In [32]:
df['debt'].value_counts() #выведим кол-во значений 0 и 1 с помощью метода value_counts()

0    19713
1     1741
Name: debt, dtype: int64

Мы видим, что значений 0 - 19027, а 1 - 1728. Соответственно, 0 - примем за отсутствие долга, 1 - за наличие долга. Исходя из этого создадим две категории:
* 1 - "с просрочкой"
* 0 - "без просрочек"

Напишем функцию для создания этих категорий.

In [33]:
def debt_group_change(row): #создадим функцию для замены значений в столбце purpose_lemma на созданные нами категории
    if row['debt'] == 1: #для этого применим условия
        return 'с просрочкой' 
    else:
        return 'без просрочек'

In [34]:
#применим функцию debt_group_change по назначению
df['debt_group'] = df.apply(debt_group_change, axis=1)

In [35]:
df.head()

Unnamed: 0,gender,children,family_status,family_status_id,income_type,debt,education,education_id,total_income,purpose,purpose_lemma,children_group,debt_group
0,f,1,женат / замужем,0,сотрудник,0,высшее,0,253875,покупка жилья,на недвижимость,с 1 ребенком,без просрочек
1,f,1,женат / замужем,0,сотрудник,0,среднее,1,112080,приобретение автомобиля,на автомобиль,с 1 ребенком,без просрочек
2,m,0,женат / замужем,0,сотрудник,0,среднее,1,145885,покупка жилья,на недвижимость,без детей,без просрочек
3,m,3,женат / замужем,0,сотрудник,0,среднее,1,267628,дополнительное образование,на образование,многодетные,без просрочек
4,f,0,гражданский брак,1,пенсионер,0,среднее,1,158616,сыграть свадьбу,на свадьбу,без детей,без просрочек


Мы успешно категоризировали данные о наличие долга.

#### Категоризация данных по уровню дохода

Для категоризации колонки с доходами *total_income* будем использовать квантили (0.25, 0.5(медиана), 0.75). На основе этого создадим следующие категории:
* до 0.25 - низкие доходы
* до 0.5(медианы) - средние доходы
* до 0.75 - выше среднего доходы
* свыше 0.75 - высокие доходы

In [36]:
# #создадим функцию для замены значений в столбце purpose_lemma на созданные нами категории
# def total_income_group_change(row): 
#     if row['total_income'] <= df['total_income'].quantile(0.25): #для этого применим условия
#         return 'низкие доходы' 
#     elif row['total_income'] <= df['total_income'].quantile(0.50):
#         return 'средние доходы'
#     elif row['total_income'] <= df['total_income'].quantile(0.75):
#         return 'выше среднего доходы'
#     else:
#         return 'высокие доходы'

Применим к нашему dataframe созданные функции и создадим отдельный столбец

In [37]:
#применим функцию total_income_group_change по назначению
#df['total_income_group'] = df.apply(total_income_group_change, axis=1)
df['total_income_group'] = pd.qcut(df['total_income'], 4, labels = ['низкие доходы', 'средние доходы', 'выше среднего доходы', 'высокие доходы'])

In [38]:
df.head()

Unnamed: 0,gender,children,family_status,family_status_id,income_type,debt,education,education_id,total_income,purpose,purpose_lemma,children_group,debt_group,total_income_group
0,f,1,женат / замужем,0,сотрудник,0,высшее,0,253875,покупка жилья,на недвижимость,с 1 ребенком,без просрочек,высокие доходы
1,f,1,женат / замужем,0,сотрудник,0,среднее,1,112080,приобретение автомобиля,на автомобиль,с 1 ребенком,без просрочек,средние доходы
2,m,0,женат / замужем,0,сотрудник,0,среднее,1,145885,покупка жилья,на недвижимость,без детей,без просрочек,выше среднего доходы
3,m,3,женат / замужем,0,сотрудник,0,среднее,1,267628,дополнительное образование,на образование,многодетные,без просрочек,высокие доходы
4,f,0,гражданский брак,1,пенсионер,0,среднее,1,158616,сыграть свадьбу,на свадьбу,без детей,без просрочек,выше среднего доходы


Мы успешно категоризировали данные по величине дохода.

#### Данные по половому признаку

Проверим какие категории и сколько представлены в столбце gender

In [39]:
df['gender'].value_counts() #посчитаем все значения по составу колонки используя метод value_counts()

f      14174
m       7279
xna        1
Name: gender, dtype: int64

Возникла неожиданная запись zna. Данная запись могла возникнуть по разным причинам, или не правильно внесли данные при заполнении, либо клиент не позиционировал себя c традиционными записями. Т.к. такая запись только одна, то вполне мы можем ею пренебречь и удалить. Что и сделаем с использованием метода drop() по индексу строки под №10462

In [40]:
#выявим по какому индексу расположен этот гендерный признак и какие данные под ним находятся
d = df[df['gender'] == 'xna']
display(d) #выведим на экран

Unnamed: 0,gender,children,family_status,family_status_id,income_type,debt,education,education_id,total_income,purpose,purpose_lemma,children_group,debt_group,total_income_group
10684,xna,0,гражданский брак,1,компаньон,0,неоконченное высшее,2,203905,покупка недвижимости,на недвижимость,без детей,без просрочек,высокие доходы


In [41]:
#удаляем данную запись с помощью метода drop() по индексу
df = df.drop(index=10462, axis=0)

In [42]:
df.groupby('gender')['gender'].count() #проверим удалилась ли у нас данная строка

gender
f      14173
m       7279
xna        1
Name: gender, dtype: int64

Мы успешно привели в порядок данные по половому признаку.

**Вывод**

In [43]:
#выведим первые 5 строк и посмотрим все ли добавились данные, те что мы хотели добавить
df.head()

Unnamed: 0,gender,children,family_status,family_status_id,income_type,debt,education,education_id,total_income,purpose,purpose_lemma,children_group,debt_group,total_income_group
0,f,1,женат / замужем,0,сотрудник,0,высшее,0,253875,покупка жилья,на недвижимость,с 1 ребенком,без просрочек,высокие доходы
1,f,1,женат / замужем,0,сотрудник,0,среднее,1,112080,приобретение автомобиля,на автомобиль,с 1 ребенком,без просрочек,средние доходы
2,m,0,женат / замужем,0,сотрудник,0,среднее,1,145885,покупка жилья,на недвижимость,без детей,без просрочек,выше среднего доходы
3,m,3,женат / замужем,0,сотрудник,0,среднее,1,267628,дополнительное образование,на образование,многодетные,без просрочек,высокие доходы
4,f,0,гражданский брак,1,пенсионер,0,среднее,1,158616,сыграть свадьбу,на свадьбу,без детей,без просрочек,выше среднего доходы


Действительно, все впорядке. Все наши функции и категории успешно применились. Присутствуют в dataframe

Мы успешно провели категоризацию по всем необходимым для работы столбцам. 

Проверили данные в них и привели их в порядок. 

Все в порядке, можем приступать к дальнейшей работе.

## Шаг 3. Ответы на вопросы

Прежде чем ответить на вопрос, влияют ли определенные признаки на возврат кредита в срок, нужно определиться, что будет "отправной точкой" выше которой мы будем считать есть ли зависимость или нет от определенных признаков, и в какую сторону - положительную или отрицательную. Этой "точкой" будет средний уровень просрочек платежа.

Вычислим средний показатель просрочек, так называемую "среднюю точку", путем деления всех просрочек на общее количество займов.

In [44]:
avg_debt = df[df['debt'] == 1]['debt'].count() / df['debt'].count() * 100

In [45]:
print(f'Средний уровень просрочек платежа - {round(avg_debt,2)}%')

Средний уровень просрочек платежа - 8.12%


При формировании выводов будем использовать/сравнивать с данным значением.

Также сформируем категории для обозначения ситуации по отклонениям от средней величины. Это нужно для того, чтобы мы и наши заказчики сразу видели те категории и комбинации, на которые стоит обратить самое пристальное влияние и к каким стремиться.
Сформируем следующие категории:
* превышение от среднего уровня просрочек в 2 и более раза - "Критический случай!"
* превышение от среднего уровня просрочек на 50% и более до 2 раз - "Особая проблемная ситуация!"
* превышение от среднего уровня просрочек от средней и до 50% - "Проблемная ситуация! На заметку"
* положительное отклонение от среднего уровня от средней - "Хорошая ситуация"
* значения в которых не было просрочек, либо только просрочки, обозначаются в таблицах, как NaN, следовательно - "Крайние значения"

На "Крайние значение" стоит в любом случае (как в положительном, так и отрицатльном) обращать особое внимание.

Для этого создадим функцию которая будет обозначать нам эти категории в таблице.

In [46]:
def category_special_case(data):
    """Функция категоризирует отклонения от среднего значения"""
    
    #в сводных таблицах, к необходимым ячейкам, можно обратиться через мультииндексы
    for row in list(data.index): #перебераем комбинации вариантов
        if data.loc[row, 'deviation'] <= -avg_debt: #категоризируем варианты с исользованием условий
            data.loc[row, 'category_special_case'] = 'Критический случай!'
        elif data.loc[row, 'deviation'] <= -avg_debt / 2:
            data.loc[row, 'category_special_case'] = 'Особая проблемная ситуация!'
        elif data.loc[row, 'deviation'] <= 0:
            data.loc[row, 'category_special_case'] = 'Проблемная ситуация.'
        elif data.loc[row, 'deviation'] > 0:
            data.loc[row, 'category_special_case'] = 'Хорошая ситуация'
        else:
            data.loc[row, 'category_special_case'] = 'Крайние значения' 
        

### Зависимости

#### Зависимость с учетом наличия детей

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Сформируем сводную таблицу, в которой будут отражаться данные зависимости наличия просрочек от наличия детей.

In [47]:
#сформируем сводную таблицу
data_pivot_children = pd.pivot_table(df, index = ['children_group'], \
                            columns = 'debt_group', values = 'debt', aggfunc = 'count')

#добавим столбец относительной величины просрочек к общим кредитам
data_pivot_children['avg_debt_%'] = round(data_pivot_children['с просрочкой'] \
            / (data_pivot_children['с просрочкой'] + data_pivot_children['без просрочек']) * 100, 2)

#добавим столбец, в котором покажем с отклонениями от среднего показателия
data_pivot_children['deviation'] = round(avg_debt - data_pivot_children['avg_debt_%'], 2)

#добавим столбец, показывающий на сколько % отклонение от средней величины
data_pivot_children['deviation_%'] = round(data_pivot_children['deviation'] / data_pivot_children['avg_debt_%'] * 100, 1)

#применим функцию категоризации отклонений от среднего показателия
category_special_case(data_pivot_children)

#выведим таблицу на экран и одновременно отсортируем по столбцу отклонений от среднего
display(data_pivot_children.sort_values('deviation', ascending=True))

debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
с 2 детьми,1926,202,9.49,-1.37,-14.4,Проблемная ситуация.
с 1 ребенком,4410,445,9.17,-1.05,-11.5,Проблемная ситуация.
многодетные,349,31,8.16,-0.04,-0.5,Проблемная ситуация.
без детей,13027,1063,7.54,0.58,7.7,Хорошая ситуация


Как видим из таблицы, при применении только одного вида категории данных, а в данном случае это по наличию детей, отклонения от среднего значения в районе 12-13% в проблемную сторону и до 8% в положительную сторону.

Сделаем комбинации с другими категориями и посмотрим - меняются ли отклонения, есть ли зависимости в комбинациях. Применим дополнительно к категории по наличию детей, по очереди следующие категории:
* пол
* семейный статус
* рабочий статус
* образование 
* цель кредита
* уровень доходов

Создадим функцию в которой будем перебирать данные вариации и выводить их на экран. В дальнейшем, она нам также пригодиться для других комбинаций-зависимостей.

In [48]:
def create_combination(main_group, lst):
    '''Функция перебирает список дополнительных зависимостей lst и 
    комбинирует их с основной зависимостью main_group'''
    
    for addiction in lst:   #перебираем список дополнительных зависимостей/категорий
        
        #выводим обозначение комбинации
        print(f'Зависимость категорий {main_group} и {addiction}:')
        
        #сформировываем сводную таблицу
        data_pivot = pd.pivot_table(df, index = [main_group, addiction], \
                            columns = 'debt_group', values = 'debt', aggfunc = 'count')
        
        #добавляем столбец с относительными показателями просрочки платежа
        data_pivot['avg_debt_%'] = round(data_pivot['с просрочкой'] \
            / (data_pivot['с просрочкой'] + data_pivot['без просрочек']) * 100, 2)

        #добавляем столбец с отклонениями от средней величины
        data_pivot['deviation'] = round(avg_debt - data_pivot['avg_debt_%'], 2)
        
        #добавим столбец, показывающий на сколько % отклонение от средней величины
        data_pivot['deviation_%'] = round(data_pivot['deviation'] / data_pivot['avg_debt_%'] * 100, 1)

        #применим функцию категоризации отклонений от среднего показателия
        category_special_case(data_pivot)

        #выводим сводную таблицу на экран
        display(data_pivot.sort_values('deviation', ascending=True))

In [49]:
#создаем лист из возможных дополнительных комбинаций
list_addiction_with_children_group = ['gender', 'family_status', 'income_type', 'education', 'purpose_lemma', 'total_income_group']

In [50]:
#применим функцию для  комбинации основной категории с одной дополнительной
create_combination('children_group', list_addiction_with_children_group)

Зависимость категорий children_group и gender:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
с 1 ребенком,m,1536.0,199.0,11.47,-3.35,-29.2,Проблемная ситуация.
с 2 детьми,f,1165.0,138.0,10.59,-2.47,-23.3,Проблемная ситуация.
без детей,m,4099.0,471.0,10.31,-2.19,-21.2,Проблемная ситуация.
многодетные,m,136.0,13.0,8.72,-0.6,-6.9,Проблемная ситуация.
с 1 ребенком,f,2874.0,246.0,7.88,0.24,3.0,Хорошая ситуация
многодетные,f,213.0,18.0,7.79,0.33,4.2,Хорошая ситуация
с 2 детьми,m,761.0,64.0,7.76,0.36,4.6,Хорошая ситуация
без детей,f,8927.0,592.0,6.22,1.9,30.5,Хорошая ситуация
без детей,xna,1.0,,,,,Крайние значения


Зависимость категорий children_group и family_status:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
многодетные,не женат / не замужем,8.0,2.0,20.0,-11.88,-59.4,Критический случай!
с 2 детьми,вдовец / вдова,21.0,3.0,12.5,-4.38,-35.0,Особая проблемная ситуация!
многодетные,гражданский брак,58.0,8.0,12.12,-4.0,-33.0,Проблемная ситуация.
с 2 детьми,не женат / не замужем,74.0,10.0,11.9,-3.78,-31.8,Проблемная ситуация.
с 1 ребенком,гражданский брак,882.0,118.0,11.8,-3.68,-31.2,Проблемная ситуация.
с 1 ребенком,не женат / не замужем,402.0,52.0,11.45,-3.33,-29.1,Проблемная ситуация.
с 2 детьми,в разводе,75.0,8.0,9.64,-1.52,-15.8,Проблемная ситуация.
с 2 детьми,женат / замужем,1434.0,148.0,9.36,-1.24,-13.2,Проблемная ситуация.
с 2 детьми,гражданский брак,322.0,33.0,9.3,-1.18,-12.7,Проблемная ситуация.
без детей,не женат / не замужем,2052.0,210.0,9.28,-1.16,-12.5,Проблемная ситуация.


Зависимость категорий children_group и income_type:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,income_type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
многодетные,пенсионер,6.0,1.0,14.29,-6.17,-43.2,Особая проблемная ситуация!
с 2 детьми,сотрудник,1205.0,153.0,11.27,-3.15,-28.0,Проблемная ситуация.
с 1 ребенком,сотрудник,2601.0,305.0,10.5,-2.38,-22.7,Проблемная ситуация.
с 2 детьми,пенсионер,26.0,3.0,10.34,-2.22,-21.5,Проблемная ситуация.
многодетные,сотрудник,223.0,23.0,9.35,-1.23,-13.2,Проблемная ситуация.
без детей,сотрудник,5994.0,580.0,8.82,-0.7,-7.9,Проблемная ситуация.
с 1 ребенком,компаньон,1201.0,106.0,8.11,0.01,0.1,Хорошая ситуация
без детей,компаньон,2911.0,226.0,7.2,0.92,12.8,Хорошая ситуация
с 2 детьми,компаньон,512.0,39.0,7.08,1.04,14.7,Хорошая ситуация
без детей,госслужащий,806.0,59.0,6.82,1.3,19.1,Хорошая ситуация


Зависимость категорий children_group и education:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,education,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
многодетные,неоконченное высшее,6.0,2.0,25.0,-16.88,-67.5,Критический случай!
с 2 детьми,начальное,19.0,6.0,24.0,-15.88,-66.2,Критический случай!
с 1 ребенком,начальное,50.0,10.0,16.67,-8.55,-51.3,Критический случай!
с 2 детьми,неоконченное высшее,65.0,9.0,12.16,-4.04,-33.2,Проблемная ситуация.
с 1 ребенком,неоконченное высшее,156.0,20.0,11.36,-3.24,-28.5,Проблемная ситуация.
с 2 детьми,среднее,1302.0,158.0,10.82,-2.7,-25.0,Проблемная ситуация.
с 1 ребенком,среднее,2945.0,343.0,10.43,-2.31,-22.1,Проблемная ситуация.
многодетные,среднее,246.0,25.0,9.23,-1.11,-12.0,Проблемная ситуация.
без детей,среднее,9314.0,838.0,8.25,-0.13,-1.6,Проблемная ситуация.
без детей,начальное,174.0,15.0,7.94,0.18,2.3,Хорошая ситуация


Зависимость категорий children_group и purpose_lemma:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,purpose_lemma,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
многодетные,на свадьбу,31,5,13.89,-5.77,-41.5,Особая проблемная ситуация!
с 2 детьми,на автомобиль,365,50,12.05,-3.93,-32.6,Проблемная ситуация.
с 2 детьми,на образование,371,47,11.24,-3.12,-27.8,Проблемная ситуация.
с 1 ребенком,на автомобиль,870,104,10.68,-2.56,-24.0,Проблемная ситуация.
с 1 ребенком,на образование,786,90,10.27,-2.15,-20.9,Проблемная ситуация.
с 1 ребенком,на свадьбу,483,51,9.55,-1.43,-15.0,Проблемная ситуация.
без детей,на образование,2413,229,8.67,-0.55,-6.3,Проблемная ситуация.
без детей,на автомобиль,2601,243,8.54,-0.42,-4.9,Проблемная ситуация.
с 2 детьми,на недвижимость,981,90,8.4,-0.28,-3.3,Проблемная ситуация.
многодетные,на автомобиль,66,6,8.33,-0.21,-2.5,Проблемная ситуация.


Зависимость категорий children_group и total_income_group:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,total_income_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
многодетные,низкие доходы,67,9,11.84,-3.72,-31.4,Проблемная ситуация.
с 2 детьми,средние доходы,483,56,10.39,-2.27,-21.8,Проблемная ситуация.
с 2 детьми,выше среднего доходы,450,52,10.36,-2.24,-21.6,Проблемная ситуация.
с 1 ребенком,средние доходы,1110,120,9.76,-1.64,-16.8,Проблемная ситуация.
с 1 ребенком,выше среднего доходы,1131,121,9.66,-1.54,-15.9,Проблемная ситуация.
с 1 ребенком,низкие доходы,1006,107,9.61,-1.49,-15.5,Проблемная ситуация.
с 2 детьми,низкие доходы,486,49,9.16,-1.04,-11.4,Проблемная ситуация.
многодетные,выше среднего доходы,87,8,8.42,-0.3,-3.6,Проблемная ситуация.
многодетные,средние доходы,98,9,8.41,-0.29,-3.4,Проблемная ситуация.
без детей,средние доходы,3305,298,8.27,-0.15,-1.8,Проблемная ситуация.


Отметим, что при комбинациях категорий "по наличию детей" с "семейным статусом" и с "образованием" есть критические случаи. Особые проблемные ситуации в комбинациях с "семейным статусом", "рабочим статусом" и "целью кредита". 

Положительные крайние ситуации так же есть в комбинациях с "семейным статусом", "рабочим статусом" и "образованием"

!Стоит заметить, все значительные отклонения, так и крайние случаи, как в положительную, так и отрицательную сторону, построены на малой выборке.

Применение комбинаций из 2х параметров, показало свою успешность и эффективность. Для расширения поля исследований, создадим функцию с формированием сводных таблиц из 3 комбинаций - одна основная и 2 дополнительных.

In [51]:
def create_combination_twice(main_group, lst):
    '''Функция перебирает список дополнительных зависимостей lst и комбинирует их с основной зависимостью main_group'''
    
    for addiction_first in lst[:round(len(lst)/2)]:#перебираем список дополнительных зависимостей/категорий
        for addiction_second in lst[round(len(lst)/2):]:
        
            print(f'Зависимость категорий {main_group} с {addiction_first} и {addiction_second}:') #выводим обозначение комбинации
        
            #сформировываем сводную таблицу
            data_pivot = pd.pivot_table(df, index = [main_group, addiction_first, addiction_second], \
                            columns = 'debt_group', values = 'debt', aggfunc = 'count')
        
            #добавляем столбец с относительными показателями просрочки платежа
            data_pivot['avg_debt_%'] = round(data_pivot['с просрочкой'] \
                / (data_pivot['с просрочкой'] + data_pivot['без просрочек']) * 100, 2)

            #добавляем столбец с отклонениями от средней величины
            data_pivot['deviation'] = round(avg_debt - data_pivot['avg_debt_%'], 2)
            
            
            #добавим столбец, показывающий на сколько % отклонение от средней величины
            data_pivot['deviation_%'] = round(data_pivot['deviation'] / data_pivot['avg_debt_%'] * 100, 1)
            
            
            #применим функцию категоризации отклонений от среднего показателия
            category_special_case(data_pivot)
            
            #выводим сводную таблицу на экран
            display(data_pivot.sort_values('deviation', ascending=True))

In [52]:
#применим функцию для комбинации основной категории с двумя дополнительными
create_combination_twice('children_group', list_addiction_with_children_group)

Зависимость категорий children_group с gender и education:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,gender,education,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
с 2 детьми,f,начальное,7.0,4.0,36.36,-28.24,-77.7,Критический случай!
многодетные,m,неоконченное высшее,2.0,1.0,33.33,-25.21,-75.6,Критический случай!
с 1 ребенком,m,начальное,23.0,6.0,20.69,-12.57,-60.8,Критический случай!
многодетные,f,неоконченное высшее,4.0,1.0,20.0,-11.88,-59.4,Критический случай!
с 2 детьми,f,неоконченное высшее,37.0,7.0,15.91,-7.79,-49.0,Особая проблемная ситуация!
с 2 детьми,m,начальное,12.0,2.0,14.29,-6.17,-43.2,Особая проблемная ситуация!
с 1 ребенком,m,среднее,1077.0,160.0,12.93,-4.81,-37.2,Особая проблемная ситуация!
с 1 ребенком,f,начальное,27.0,4.0,12.9,-4.78,-37.1,Особая проблемная ситуация!
с 2 детьми,f,среднее,756.0,109.0,12.6,-4.48,-35.6,Особая проблемная ситуация!
с 1 ребенком,m,неоконченное высшее,52.0,7.0,11.86,-3.74,-31.5,Проблемная ситуация.


Зависимость категорий children_group с gender и purpose_lemma:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,gender,purpose_lemma,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
многодетные,f,на свадьбу,17.0,4.0,19.05,-10.93,-57.4,Критический случай!
с 2 детьми,f,на автомобиль,215.0,34.0,13.65,-5.53,-40.5,Особая проблемная ситуация!
с 1 ребенком,m,на образование,256.0,38.0,12.93,-4.81,-37.2,Особая проблемная ситуация!
с 1 ребенком,m,на свадьбу,177.0,26.0,12.81,-4.69,-36.6,Особая проблемная ситуация!
без детей,m,на образование,743.0,108.0,12.69,-4.57,-36.0,Особая проблемная ситуация!
с 1 ребенком,m,на автомобиль,311.0,45.0,12.64,-4.52,-35.8,Особая проблемная ситуация!
с 2 детьми,f,на образование,219.0,31.0,12.4,-4.28,-34.5,Особая проблемная ситуация!
многодетные,m,на автомобиль,22.0,3.0,12.0,-3.88,-32.3,Проблемная ситуация.
без детей,m,на автомобиль,795.0,104.0,11.57,-3.45,-29.8,Проблемная ситуация.
многодетные,m,на недвижимость,68.0,8.0,10.53,-2.41,-22.9,Проблемная ситуация.


Зависимость категорий children_group с gender и total_income_group:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,gender,total_income_group,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
с 1 ребенком,m,низкие доходы,189,39,17.11,-8.99,-52.5,Критический случай!
многодетные,m,низкие доходы,10,2,16.67,-8.55,-51.3,Критический случай!
с 1 ребенком,m,выше среднего доходы,433,60,12.17,-4.05,-33.3,Проблемная ситуация.
без детей,m,выше среднего доходы,1067,138,11.45,-3.33,-29.1,Проблемная ситуация.
с 2 детьми,f,выше среднего доходы,232,30,11.45,-3.33,-29.1,Проблемная ситуация.
без детей,m,низкие доходы,699,90,11.41,-3.29,-28.8,Проблемная ситуация.
многодетные,f,низкие доходы,57,7,10.94,-2.82,-25.8,Проблемная ситуация.
с 1 ребенком,m,средние доходы,338,41,10.82,-2.7,-25.0,Проблемная ситуация.
с 2 детьми,f,высокие доходы,231,28,10.81,-2.69,-24.9,Проблемная ситуация.
без детей,m,средние доходы,968,116,10.7,-2.58,-24.1,Проблемная ситуация.


Зависимость категорий children_group с family_status и education:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,family_status,education,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
с 2 детьми,гражданский брак,начальное,1.0,2.0,66.67,-58.55,-87.8,Критический случай!
с 1 ребенком,вдовец / вдова,неоконченное высшее,1.0,1.0,50.00,-41.88,-83.8,Критический случай!
многодетные,в разводе,неоконченное высшее,1.0,1.0,50.00,-41.88,-83.8,Критический случай!
с 2 детьми,не женат / не замужем,неоконченное высшее,2.0,1.0,33.33,-25.21,-75.6,Критический случай!
с 1 ребенком,в разводе,начальное,3.0,1.0,25.00,-16.88,-67.5,Критический случай!
...,...,...,...,...,...,...,...,...
с 2 детьми,в разводе,неоконченное высшее,3.0,,,,,Крайние значения
с 2 детьми,вдовец / вдова,высшее,5.0,,,,,Крайние значения
с 2 детьми,вдовец / вдова,начальное,1.0,,,,,Крайние значения
с 2 детьми,не женат / не замужем,высшее,27.0,,,,,Крайние значения


Зависимость категорий children_group с family_status и purpose_lemma:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,family_status,purpose_lemma,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
многодетные,не женат / не замужем,на недвижимость,1.0,2.0,66.67,-58.55,-87.8,Критический случай!
многодетные,гражданский брак,на автомобиль,5.0,2.0,28.57,-20.45,-71.6,Критический случай!
с 2 детьми,не женат / не замужем,на автомобиль,16.0,5.0,23.81,-15.69,-65.9,Критический случай!
с 2 детьми,гражданский брак,на образование,26.0,6.0,18.75,-10.63,-56.7,Критический случай!
с 1 ребенком,гражданский брак,на образование,79.0,18.0,18.56,-10.44,-56.2,Критический случай!
...,...,...,...,...,...,...,...,...
многодетные,гражданский брак,на недвижимость,17.0,,,,,Крайние значения
многодетные,не женат / не замужем,на автомобиль,4.0,,,,,Крайние значения
многодетные,не женат / не замужем,на образование,3.0,,,,,Крайние значения
с 1 ребенком,вдовец / вдова,на автомобиль,11.0,,,,,Крайние значения


Зависимость категорий children_group с family_status и total_income_group:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,family_status,total_income_group,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
многодетные,не женат / не замужем,низкие доходы,1,1,50.00,-41.88,-83.8,Критический случай!
с 2 детьми,вдовец / вдова,высокие доходы,3,2,40.00,-31.88,-79.7,Критический случай!
многодетные,не женат / не замужем,выше среднего доходы,2,1,33.33,-25.21,-75.6,Критический случай!
многодетные,гражданский брак,низкие доходы,9,4,30.77,-22.65,-73.6,Критический случай!
с 1 ребенком,вдовец / вдова,средние доходы,9,3,25.00,-16.88,-67.5,Критический случай!
...,...,...,...,...,...,...,...,...
многодетные,не женат / не замужем,высокие доходы,1,0,0.00,8.12,inf,Хорошая ситуация
с 2 детьми,не женат / не замужем,низкие доходы,21,0,0.00,8.12,inf,Хорошая ситуация
с 2 детьми,вдовец / вдова,низкие доходы,6,0,0.00,8.12,inf,Хорошая ситуация
с 1 ребенком,вдовец / вдова,низкие доходы,30,0,0.00,8.12,inf,Хорошая ситуация


Зависимость категорий children_group с income_type и education:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,income_type,education,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
с 2 детьми,сотрудник,начальное,14.0,6.0,30.00,-21.88,-72.9,Критический случай!
с 1 ребенком,сотрудник,начальное,32.0,8.0,20.00,-11.88,-59.4,Критический случай!
без детей,компаньон,начальное,13.0,3.0,18.75,-10.63,-56.7,Критический случай!
с 2 детьми,сотрудник,неоконченное высшее,36.0,8.0,18.18,-10.06,-55.3,Критический случай!
многодетные,пенсионер,среднее,5.0,1.0,16.67,-8.55,-51.3,Критический случай!
...,...,...,...,...,...,...,...,...
с 1 ребенком,сотрудник,ученая степень,1.0,,,,,Крайние значения
с 2 детьми,в декрете,среднее,,1.0,,,,Крайние значения
с 2 детьми,госслужащий,неоконченное высшее,5.0,,,,,Крайние значения
с 2 детьми,компаньон,начальное,4.0,,,,,Крайние значения


Зависимость категорий children_group с income_type и purpose_lemma:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,income_type,purpose_lemma,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
с 2 детьми,пенсионер,на образование,4.0,2.0,33.33,-25.21,-75.6,Критический случай!
многодетные,сотрудник,на свадьбу,22.0,4.0,15.38,-7.26,-47.2,Особая проблемная ситуация!
с 2 детьми,пенсионер,на автомобиль,6.0,1.0,14.29,-6.17,-43.2,Особая проблемная ситуация!
с 2 детьми,сотрудник,на автомобиль,223.0,37.0,14.23,-6.11,-42.9,Особая проблемная ситуация!
с 1 ребенком,компаньон,на свадьбу,124.0,20.0,13.89,-5.77,-41.5,Особая проблемная ситуация!
с 1 ребенком,...,...,...,...,...,...,...,...
с 1 ребенком,безработный,на недвижимость,,1.0,,,,Крайние значения
с 2 детьми,в декрете,на автомобиль,,1.0,,,,Крайние значения
с 2 детьми,госслужащий,на свадьбу,24.0,,,,,Крайние значения
с 2 детьми,пенсионер,на недвижимость,14.0,,,,,Крайние значения


Зависимость категорий children_group с income_type и total_income_group:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
children_group,income_type,total_income_group,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
с 2 детьми,в декрете,низкие доходы,0,1,100.00,-91.88,-91.9,Критический случай!
с 1 ребенком,безработный,низкие доходы,0,1,100.00,-91.88,-91.9,Критический случай!
многодетные,пенсионер,низкие доходы,2,1,33.33,-25.21,-75.6,Критический случай!
многодетные,госслужащий,низкие доходы,7,2,22.22,-14.10,-63.5,Критический случай!
с 2 детьми,пенсионер,выше среднего доходы,6,1,14.29,-6.17,-43.2,Особая проблемная ситуация!
с 2 детьми,...,...,...,...,...,...,...,...
с 2 детьми,предприниматель,высокие доходы,0,0,,,,Крайние значения
с 2 детьми,студент,низкие доходы,0,0,,,,Крайние значения
с 2 детьми,студент,средние доходы,0,0,,,,Крайние значения
с 2 детьми,студент,выше среднего доходы,0,0,,,,Крайние значения


При применении основной категории с 2мя дополнительными, выявились значительные корреляции в данных. Появилось больше критических, особых проблемных ситуаций и крайних случаев. 

Однако важно заметить, серьезные отклонения в основе своей, выявлены на малой выборке. Поэтому принимать или нет текущие данные, это выбор заказчика.

Критические и особые проблемные ситуации, есть во всех комбинациях.

Крайние положительные и крайние отрицательные ситуации есть в комбинациях с "образованием" и "полом", с "семейным положением" и "образованием", с "семейным положением" и "целями", с "семейным положением" и "доходами", с "рабочим положением" и "образованием", с "рабочим состоянием" и "целями", с "рабочим положением" и "доходами"

Мы могли бы и далее увеличивать кол-во комбинаций между категориями, но результаты будут ориентированны еще на меньшей выборке чем с 3мя. А это уже будут не совсем корректные данные.

Поэтому остановимся на комбинации из 3 категорий. А при наличии большей выборки можно будет комбинировать и больше значений.

**Вывод**

Отвечая на вопрос "Есть ли зависимость между наличием детей и возвратом кредита в срок?", можно сказать следующее, есть отклонение/зависимость в худшую сторону у заемщиков с 1м и 2мя детьми на 13,9% и 11,1% соответственно от исходной средней величины. Положительные результаты у категорий "многодетные" на  1,8% и "без детей" на 7,3%.

При группировки с 1м или 2мя дополнительными категориями, есть явные отлонения, включая "критических" и "особых проблемных" ситуаций, но здесь во-первых, нет явных "перекосов" одних категорий по наличию детей от других, и во-вторых, все "критические", "особые" и "крайние" ситуации выявлены на малых выборках. 

Есть явно выраженная зависимость от уровня образования.

#### Зависимость с учетом семейного положения

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [53]:
#сформируем сводную таблицу
data_pivot_family_status = pd.pivot_table(df, index = ['family_status'], \
                            columns = 'debt_group', values = 'debt', aggfunc = 'count')

#добавим столбец относительной величины просрочек к общим кредитам
data_pivot_family_status['avg_debt_%'] = round(data_pivot_family_status['с просрочкой'] \
                          / (data_pivot_family_status['с просрочкой'] + data_pivot_family_status['без просрочек']) * 100, 2)

#добавим столбец, в котором покажем с отклонениями от среднего показателия
data_pivot_family_status['deviation'] = round(avg_debt - data_pivot_family_status['avg_debt_%'], 2)

#добавим столбец, показывающий на сколько % отклонение от средней величины
data_pivot_family_status['deviation_%'] = round(data_pivot_family_status['deviation'] / data_pivot_family_status['avg_debt_%'] * 100, 1)

#применим функцию категоризации отклонений от среднего показателия
category_special_case(data_pivot_family_status)

#выведим таблицу на экран и одновременно отсортируем по столбцу отклонений от среднего
display(data_pivot_family_status.sort_values('deviation', ascending=True))


debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
не женат / не замужем,2536,274,9.75,-1.63,-16.7,Проблемная ситуация.
гражданский брак,3762,388,9.35,-1.23,-13.2,Проблемная ситуация.
женат / замужем,11408,931,7.55,0.57,7.5,Хорошая ситуация
в разводе,1110,85,7.11,1.01,14.2,Хорошая ситуация
вдовец / вдова,896,63,6.57,1.55,23.6,Хорошая ситуация


Как видим из таблицы, при применении только одного вида категории, а в данном случае, это по семейному статусу, отклонения от среднего значения, также как и в предыдущем исследовании есть, отклонения от среднего значения в районе 12-13% в проблемную сторону и до 24% в положительную сторону.

Сделаем комбинации с другими категориями и посмотрим меняются ли отклонения, есть ли зависимости в комбинациях. Применим дополнительно по очереди следующие зависимости:
* пол
* рабочий статус
* образование
* уровень доходов
* цель кредита

Категории: "наличие детей" мы уже  использовать с "семейным статусом" не будем, т.к. уже использовали в предыдущем исследовании.

In [54]:
#создаем лист из возможных дополнительных комбинаций
list_addiction_with_family_status = ['gender', 'income_type', 'education', 'purpose_lemma', 'total_income_group']

In [55]:
#применим функцию для  комбинации основной категории с одной дополнительной
create_combination('family_status', list_addiction_with_family_status)

Зависимость категорий family_status и gender:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
вдовец / вдова,m,44.0,11.0,20.0,-11.88,-59.4,Критический случай!
не женат / не замужем,m,925.0,156.0,14.43,-6.31,-43.7,Особая проблемная ситуация!
гражданский брак,m,1150.0,155.0,11.88,-3.76,-31.6,Проблемная ситуация.
в разводе,m,235.0,24.0,9.27,-1.15,-12.4,Проблемная ситуация.
женат / замужем,m,4178.0,401.0,8.76,-0.64,-7.3,Проблемная ситуация.
гражданский брак,f,2611.0,233.0,8.19,-0.07,-0.9,Проблемная ситуация.
женат / замужем,f,7230.0,530.0,6.83,1.29,18.9,Хорошая ситуация
не женат / не замужем,f,1611.0,118.0,6.82,1.3,19.1,Хорошая ситуация
в разводе,f,875.0,61.0,6.52,1.6,24.5,Хорошая ситуация
вдовец / вдова,f,852.0,52.0,5.75,2.37,41.2,Хорошая ситуация


Зависимость категорий family_status и income_type:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,income_type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
не женат / не замужем,сотрудник,1314.0,174.0,11.69,-3.57,-30.5,Проблемная ситуация.
гражданский брак,сотрудник,1988.0,239.0,10.73,-2.61,-24.3,Проблемная ситуация.
в разводе,сотрудник,563.0,60.0,9.63,-1.51,-15.7,Проблемная ситуация.
гражданский брак,компаньон,916.0,95.0,9.4,-1.28,-13.6,Проблемная ситуация.
вдовец / вдова,компаньон,88.0,9.0,9.28,-1.16,-12.5,Проблемная ситуация.
не женат / не замужем,компаньон,734.0,72.0,8.93,-0.81,-9.1,Проблемная ситуация.
женат / замужем,сотрудник,5893.0,573.0,8.86,-0.74,-8.4,Проблемная ситуация.
не женат / не замужем,госслужащий,152.0,12.0,7.32,0.8,10.9,Хорошая ситуация
гражданский брак,госслужащий,243.0,18.0,6.9,1.22,17.7,Хорошая ситуация
вдовец / вдова,пенсионер,500.0,37.0,6.89,1.23,17.9,Хорошая ситуация


Зависимость категорий family_status и education:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,education,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
гражданский брак,начальное,45.0,11.0,19.64,-11.52,-58.7,Критический случай!
вдовец / вдова,неоконченное высшее,11.0,2.0,15.38,-7.26,-47.2,Особая проблемная ситуация!
в разводе,неоконченное высшее,27.0,4.0,12.9,-4.78,-37.1,Особая проблемная ситуация!
не женат / не замужем,среднее,1570.0,207.0,11.65,-3.53,-30.3,Проблемная ситуация.
женат / замужем,начальное,126.0,15.0,10.64,-2.52,-23.7,Проблемная ситуация.
гражданский брак,среднее,2667.0,308.0,10.35,-2.23,-21.5,Проблемная ситуация.
в разводе,начальное,18.0,2.0,10.0,-1.88,-18.8,Проблемная ситуация.
не женат / не замужем,неоконченное высшее,175.0,18.0,9.33,-1.21,-13.0,Проблемная ситуация.
не женат / не замужем,начальное,31.0,3.0,8.82,-0.7,-7.9,Проблемная ситуация.
женат / замужем,неоконченное высшее,311.0,30.0,8.8,-0.68,-7.7,Проблемная ситуация.


Зависимость категорий family_status и purpose_lemma:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,purpose_lemma,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
гражданский брак,на образование,344,60,14.85,-6.73,-45.3,Особая проблемная ситуация!
не женат / не замужем,на автомобиль,555,82,12.87,-4.75,-36.9,Особая проблемная ситуация!
гражданский брак,на автомобиль,382,51,11.78,-3.66,-31.1,Проблемная ситуация.
не женат / не замужем,на образование,515,62,10.75,-2.63,-24.5,Проблемная ситуация.
гражданский брак,на недвижимость,898,91,9.2,-1.08,-11.7,Проблемная ситуация.
вдовец / вдова,на автомобиль,198,20,9.17,-1.05,-11.5,Проблемная ситуация.
женат / замужем,на автомобиль,2507,229,8.37,-0.25,-3.0,Проблемная ситуация.
женат / замужем,на образование,2379,216,8.32,-0.2,-2.4,Проблемная ситуация.
не женат / не замужем,на недвижимость,1466,130,8.15,-0.03,-0.4,Проблемная ситуация.
гражданский брак,на свадьбу,2138,186,8.0,0.12,1.5,Хорошая ситуация


Зависимость категорий family_status и total_income_group:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,total_income_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
не женат / не замужем,выше среднего доходы,612,77,11.18,-3.06,-27.4,Проблемная ситуация.
гражданский брак,средние доходы,948,116,10.9,-2.78,-25.5,Проблемная ситуация.
гражданский брак,выше среднего доходы,897,106,10.57,-2.45,-23.2,Проблемная ситуация.
не женат / не замужем,средние доходы,675,74,9.88,-1.76,-17.8,Проблемная ситуация.
не женат / не замужем,высокие доходы,640,66,9.35,-1.23,-13.2,Проблемная ситуация.
гражданский брак,низкие доходы,945,96,9.22,-1.1,-11.9,Проблемная ситуация.
вдовец / вдова,выше среднего доходы,180,17,8.63,-0.51,-5.9,Проблемная ситуация.
не женат / не замужем,низкие доходы,609,57,8.56,-0.44,-5.1,Проблемная ситуация.
в разводе,средние доходы,272,25,8.42,-0.3,-3.6,Проблемная ситуация.
женат / замужем,средние доходы,2843,248,8.02,0.1,1.2,Хорошая ситуация


Отметим критические или особые проблемные ситуации есть в комбинациях с "полом", с "образованием", с "целями".

Крайние случаи, как положительные, так и отрицательные есть в комбинациях с "рабочим положением", с "образованием".

In [56]:
#применим функцию для комбинации основной категории с двумя дополнительными
create_combination_twice('family_status', list_addiction_with_family_status)

Зависимость категорий family_status с gender и education:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,gender,education,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
гражданский брак,m,начальное,12.0,4.0,25.0,-16.88,-67.5,Критический случай!
вдовец / вдова,m,среднее,30.0,9.0,23.08,-14.96,-64.8,Критический случай!
гражданский брак,f,начальное,33.0,7.0,17.5,-9.38,-53.6,Критический случай!
не женат / не замужем,m,среднее,568.0,117.0,17.08,-8.96,-52.5,Критический случай!
вдовец / вдова,m,высшее,10.0,2.0,16.67,-8.55,-51.3,Критический случай!
вдовец / вдова,f,неоконченное высшее,11.0,2.0,15.38,-7.26,-47.2,Особая проблемная ситуация!
в разводе,f,неоконченное высшее,19.0,3.0,13.64,-5.52,-40.5,Особая проблемная ситуация!
в разводе,f,начальное,13.0,2.0,13.33,-5.21,-39.1,Особая проблемная ситуация!
гражданский брак,m,среднее,837.0,127.0,13.17,-5.05,-38.3,Особая проблемная ситуация!
женат / замужем,m,начальное,64.0,9.0,12.33,-4.21,-34.1,Особая проблемная ситуация!


Зависимость категорий family_status с gender и purpose_lemma:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,gender,purpose_lemma,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
вдовец / вдова,m,на образование,4.0,3.0,42.86,-34.74,-81.1,Критический случай!
вдовец / вдова,m,на автомобиль,6.0,4.0,40.0,-31.88,-79.7,Критический случай!
гражданский брак,m,на образование,94.0,23.0,19.66,-11.54,-58.7,Критический случай!
не женат / не замужем,m,на образование,160.0,39.0,19.6,-11.48,-58.6,Критический случай!
не женат / не замужем,m,на автомобиль,188.0,44.0,18.97,-10.85,-57.2,Критический случай!
гражданский брак,m,на автомобиль,106.0,16.0,13.11,-4.99,-38.1,Особая проблемная ситуация!
в разводе,m,на образование,40.0,6.0,13.04,-4.92,-37.7,Особая проблемная ситуация!
гражданский брак,f,на образование,250.0,37.0,12.89,-4.77,-37.0,Особая проблемная ситуация!
гражданский брак,m,на недвижимость,266.0,38.0,12.5,-4.38,-35.0,Особая проблемная ситуация!
гражданский брак,f,на автомобиль,276.0,35.0,11.25,-3.13,-27.8,Проблемная ситуация.


Зависимость категорий family_status с gender и total_income_group:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,gender,total_income_group,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
вдовец / вдова,m,выше среднего доходы,7,4,36.36,-28.24,-77.7,Критический случай!
вдовец / вдова,m,низкие доходы,13,5,27.78,-19.66,-70.8,Критический случай!
вдовец / вдова,m,высокие доходы,10,2,16.67,-8.55,-51.3,Критический случай!
не женат / не замужем,m,низкие доходы,163,32,16.41,-8.29,-50.5,Критический случай!
гражданский брак,m,средние доходы,260,45,14.75,-6.63,-44.9,Особая проблемная ситуация!
не женат / не замужем,m,высокие доходы,283,48,14.5,-6.38,-44.0,Особая проблемная ситуация!
гражданский брак,m,низкие доходы,196,32,14.04,-5.92,-42.2,Особая проблемная ситуация!
не женат / не замужем,m,выше среднего доходы,247,40,13.94,-5.82,-41.8,Особая проблемная ситуация!
гражданский брак,m,выше среднего доходы,287,45,13.55,-5.43,-40.1,Особая проблемная ситуация!
не женат / не замужем,m,средние доходы,232,36,13.43,-5.31,-39.5,Особая проблемная ситуация!


Зависимость категорий family_status с income_type и education:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,income_type,education,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
гражданский брак,госслужащий,начальное,1.0,1.0,50.00,-41.88,-83.8,Критический случай!
гражданский брак,сотрудник,начальное,23.0,8.0,25.81,-17.69,-68.5,Критический случай!
женат / замужем,компаньон,начальное,15.0,3.0,16.67,-8.55,-51.3,Критический случай!
вдовец / вдова,сотрудник,неоконченное высшее,5.0,1.0,16.67,-8.55,-51.3,Критический случай!
вдовец / вдова,пенсионер,неоконченное высшее,5.0,1.0,16.67,-8.55,-51.3,Критический случай!
...,...,...,...,...,...,...,...,...
не женат / не замужем,компаньон,начальное,3.0,,,,,Крайние значения
не женат / не замужем,пенсионер,начальное,9.0,,,,,Крайние значения
не женат / не замужем,пенсионер,неоконченное высшее,5.0,,,,,Крайние значения
не женат / не замужем,сотрудник,ученая степень,1.0,,,,,Крайние значения


Зависимость категорий family_status с income_type и purpose_lemma:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,income_type,purpose_lemma,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
вдовец / вдова,госслужащий,на автомобиль,6.0,2.0,25.00,-16.88,-67.5,Критический случай!
гражданский брак,госслужащий,на образование,19.0,4.0,17.39,-9.27,-53.3,Критический случай!
гражданский брак,сотрудник,на образование,175.0,35.0,16.67,-8.55,-51.3,Критический случай!
гражданский брак,госслужащий,на автомобиль,21.0,4.0,16.00,-7.88,-49.2,Особая проблемная ситуация!
гражданский брак,сотрудник,на автомобиль,206.0,39.0,15.92,-7.80,-49.0,Особая проблемная ситуация!
гражданский брак,...,...,...,...,...,...,...,...
гражданский брак,предприниматель,на свадьбу,1.0,,,,,Крайние значения
женат / замужем,безработный,на недвижимость,,1.0,,,,Крайние значения
женат / замужем,в декрете,на автомобиль,,1.0,,,,Крайние значения
женат / замужем,предприниматель,на недвижимость,1.0,,,,,Крайние значения


Зависимость категорий family_status с income_type и total_income_group:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
family_status,income_type,total_income_group,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
женат / замужем,безработный,низкие доходы,0,1,100.00,-91.88,-91.9,Критический случай!
женат / замужем,в декрете,низкие доходы,0,1,100.00,-91.88,-91.9,Критический случай!
не женат / не замужем,сотрудник,выше среднего доходы,278,42,13.12,-5.00,-38.1,Особая проблемная ситуация!
вдовец / вдова,компаньон,средние доходы,20,3,13.04,-4.92,-37.7,Особая проблемная ситуация!
не женат / не замужем,сотрудник,высокие доходы,277,39,12.34,-4.22,-34.2,Особая проблемная ситуация!
не женат / не замужем,...,...,...,...,...,...,...,...
не женат / не замужем,предприниматель,выше среднего доходы,0,0,,,,Крайние значения
не женат / не замужем,предприниматель,высокие доходы,0,0,,,,Крайние значения
не женат / не замужем,студент,средние доходы,0,0,,,,Крайние значения
не женат / не замужем,студент,выше среднего доходы,0,0,,,,Крайние значения


**Вывод**

Есть ли зависимость между семейным положением и возвратом кредита в срок?, можно сказать следующее - есть отклонение/зависимость в худшую сторону у заемщиков "не женатых / не замужем" и в "гражданском браке" на 16% и 12,5% соответственно от исходной средней величины. Положительные результаты у категорий "женат/замужем", "в разводе", "вдовец/вдова" на 6,9%, 15,9% и 24,3%.

Особо стоит отменить при комбинации с категорией по "полу", в основном проблемные зоны только у мужского полу, у женского хорошая ситуация.

Похожая ситуакция наблюдается при комбинациях с "полом" и "целями" явное положительное превосходство у женского пола.

Отметим также и зависимость при комбинации с "образованием", также как и с наличием детей, есть связь от уровня образования.

#### Зависимость с учетом уровня доходов

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [57]:
#сформируем сводную таблицу
data_pivot_income = pd.pivot_table(df, index = ['total_income_group'], \
                            columns = 'debt_group', values = 'debt', aggfunc = 'count')

#добавим столбец относительной величины просрочек к общим кредитам
data_pivot_income['avg_debt_%'] = round(data_pivot_income['с просрочкой'] \
                          / (data_pivot_income['с просрочкой'] + data_pivot_income['без просрочек']) * 100, 2)

#добавим столбец, в котором покажем с отклонениями от среднего показателия
data_pivot_income['deviation'] = round(avg_debt - data_pivot_income['avg_debt_%'], 2)

#добавим столбец, показывающий на сколько % отклонение от средней величины
data_pivot_income['deviation_%'] = round(data_pivot_income['deviation'] / data_pivot_income['avg_debt_%'] * 100, 1)

#применим функцию категоризации отклонений от среднего показателия
category_special_case(data_pivot_income)

#выведим таблицу на экран и одновременно отсортируем по столбцу отклонений от среднего
display(data_pivot_income.sort_values('deviation', ascending=True))


debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
total_income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
средние доходы,4996,483,8.82,-0.7,-7.9,Проблемная ситуация.
выше среднего доходы,4799,448,8.54,-0.42,-4.9,Проблемная ситуация.
низкие доходы,4937,427,7.96,0.16,2.0,Хорошая ситуация
высокие доходы,4980,383,7.14,0.98,13.7,Хорошая ситуация


Как видим из таблицы при применении только одного вида категории, а в данном случае это по уровню доходов, отклонения от среднего значения, также как и в предыдущем исследовании есть, отклонения от среднего значения в районе 13-14% в проблемную сторону и до 18% в положительную сторону.

Поэтому сделаем комбинации с другими категориями и посмотрим меняются ли отклонения, есть ли зависимости в комбинациях. Применим дополнительно по очереди следующие зависимости:
* пол
* рабочий статус
* образование
* цель кредита

Категории: "наличие детей", "семейный статус" мы уже  использовать с "уровнем доходов" не будем, т.к. уже использовали в предыдущем исследовании.

In [58]:
#создаем лист из возможных дополнительных комбинаций
list_addiction_with_total_income_group = ['gender', 'income_type', 'education', 'purpose_lemma']

In [59]:
#применим функцию для  комбинации основной категории с одной дополнительной
create_combination('total_income_group', list_addiction_with_total_income_group)

Зависимость категорий total_income_group и gender:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
total_income_group,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
низкие доходы,m,1004,138,12.08,-3.96,-32.8,Проблемная ситуация.
выше среднего доходы,m,1753,224,11.33,-3.21,-28.3,Проблемная ситуация.
средние доходы,m,1509,179,10.6,-2.48,-23.4,Проблемная ситуация.
высокие доходы,m,2266,206,8.33,-0.21,-2.5,Проблемная ситуация.
средние доходы,f,3487,304,8.02,0.1,1.2,Хорошая ситуация
низкие доходы,f,3933,289,6.85,1.27,18.5,Хорошая ситуация
выше среднего доходы,f,3046,224,6.85,1.27,18.5,Хорошая ситуация
высокие доходы,f,2713,177,6.12,2.0,32.7,Хорошая ситуация
высокие доходы,xna,1,0,0.0,8.12,inf,Хорошая ситуация
низкие доходы,xna,0,0,,,,Крайние значения


Зависимость категорий total_income_group и income_type:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
total_income_group,income_type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
низкие доходы,безработный,0,1,100.0,-91.88,-91.9,Критический случай!
низкие доходы,в декрете,0,1,100.0,-91.88,-91.9,Критический случай!
выше среднего доходы,сотрудник,2213,257,10.4,-2.28,-21.9,Проблемная ситуация.
средние доходы,сотрудник,2943,323,9.89,-1.77,-17.9,Проблемная ситуация.
низкие доходы,сотрудник,2541,270,9.61,-1.49,-15.5,Проблемная ситуация.
высокие доходы,сотрудник,2326,211,8.32,-0.2,-2.4,Проблемная ситуация.
низкие доходы,компаньон,687,62,8.28,-0.16,-1.9,Проблемная ситуация.
средние доходы,госслужащий,237,21,8.14,-0.02,-0.2,Проблемная ситуация.
средние доходы,компаньон,766,66,7.93,0.19,2.4,Хорошая ситуация
выше среднего доходы,компаньон,1527,131,7.9,0.22,2.8,Хорошая ситуация


Зависимость категорий total_income_group и education:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
total_income_group,education,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
средние доходы,начальное,65,14,17.72,-9.6,-54.2,Критический случай!
высокие доходы,неоконченное высшее,205,29,12.39,-4.27,-34.5,Особая проблемная ситуация!
выше среднего доходы,начальное,45,6,11.76,-3.64,-31.0,Проблемная ситуация.
выше среднего доходы,среднее,3250,346,9.62,-1.5,-15.6,Проблемная ситуация.
средние доходы,среднее,3726,395,9.59,-1.47,-15.3,Проблемная ситуация.
высокие доходы,начальное,38,4,9.52,-1.4,-14.7,Проблемная ситуация.
низкие доходы,среднее,3976,365,8.41,-0.29,-3.4,Проблемная ситуация.
высокие доходы,среднее,2855,258,8.29,-0.17,-2.1,Проблемная ситуация.
средние доходы,неоконченное высшее,166,14,7.78,0.34,4.4,Хорошая ситуация
низкие доходы,неоконченное высшее,133,11,7.64,0.48,6.3,Хорошая ситуация


Зависимость категорий total_income_group и purpose_lemma:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
total_income_group,purpose_lemma,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
средние доходы,на образование,914,110,10.74,-2.62,-24.4,Проблемная ситуация.
выше среднего доходы,на автомобиль,913,105,10.31,-2.19,-21.2,Проблемная ситуация.
низкие доходы,на автомобиль,943,101,9.67,-1.55,-16.0,Проблемная ситуация.
средние доходы,на свадьбу,532,56,9.52,-1.4,-14.7,Проблемная ситуация.
выше среднего доходы,на образование,909,94,9.37,-1.25,-13.3,Проблемная ситуация.
средние доходы,на автомобиль,1051,104,9.0,-0.88,-9.8,Проблемная ситуация.
низкие доходы,на свадьбу,548,54,8.97,-0.85,-9.5,Проблемная ситуация.
низкие доходы,на образование,951,91,8.73,-0.61,-7.0,Проблемная ситуация.
высокие доходы,на автомобиль,995,93,8.55,-0.43,-5.0,Проблемная ситуация.
выше среднего доходы,на свадьбу,511,47,8.42,-0.3,-3.6,Проблемная ситуация.


Стоит отметить, что комбинация "величины доходов" с одной дополнительной зависимостью показывает, что почти нет критических отклонений (кроме одной) по сравнению с другими основными комбинациями. Есть только одно критическое отклонение - при средних доходах.

Крайние положительные и отрицательные ситуации есть в комбинациях с "рабочим положением", с "образованеим".

In [60]:
#применим функцию для комбинации основной категории с двумя дополнительными
create_combination_twice('total_income_group', list_addiction_with_total_income_group)

Зависимость категорий total_income_group с gender и education:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
total_income_group,gender,education,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
средние доходы,m,начальное,24,6,20.0,-11.88,-59.4,Критический случай!
средние доходы,f,начальное,41,8,16.33,-8.21,-50.3,Критический случай!
выше среднего доходы,m,начальное,24,4,14.29,-6.17,-43.2,Особая проблемная ситуация!
высокие доходы,f,неоконченное высшее,96,14,12.73,-4.61,-36.2,Особая проблемная ситуация!
низкие доходы,m,среднее,815,118,12.65,-4.53,-35.8,Особая проблемная ситуация!
выше среднего доходы,m,среднее,1264,178,12.34,-4.22,-34.2,Особая проблемная ситуация!
высокие доходы,m,неоконченное высшее,108,15,12.2,-4.08,-33.4,Особая проблемная ситуация!
высокие доходы,f,начальное,15,2,11.76,-3.64,-31.0,Проблемная ситуация.
средние доходы,m,среднее,1148,152,11.69,-3.57,-30.5,Проблемная ситуация.
низкие доходы,m,высшее,124,14,10.14,-2.02,-19.9,Проблемная ситуация.


Зависимость категорий total_income_group с gender и purpose_lemma:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
total_income_group,gender,purpose_lemma,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
низкие доходы,m,на автомобиль,172,34,16.5,-8.38,-50.8,Критический случай!
низкие доходы,m,на свадьбу,112,20,15.15,-7.03,-46.4,Особая проблемная ситуация!
выше среднего доходы,m,на образование,314,52,14.21,-6.09,-42.9,Особая проблемная ситуация!
выше среднего доходы,m,на автомобиль,338,53,13.55,-5.43,-40.1,Особая проблемная ситуация!
средние доходы,m,на свадьбу,145,22,13.17,-5.05,-38.3,Особая проблемная ситуация!
средние доходы,m,на образование,285,43,13.11,-4.99,-38.1,Особая проблемная ситуация!
низкие доходы,m,на образование,194,26,11.82,-3.7,-31.3,Проблемная ситуация.
выше среднего доходы,m,на свадьбу,181,21,10.4,-2.28,-21.9,Проблемная ситуация.
низкие доходы,m,на недвижимость,526,58,9.93,-1.81,-18.2,Проблемная ситуация.
высокие доходы,m,на автомобиль,459,50,9.82,-1.7,-17.3,Проблемная ситуация.


Зависимость категорий total_income_group с income_type и education:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
total_income_group,income_type,education,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
низкие доходы,безработный,среднее,0,1,100.00,-91.88,-91.9,Критический случай!
низкие доходы,в декрете,среднее,0,1,100.00,-91.88,-91.9,Критический случай!
низкие доходы,госслужащий,начальное,2,1,33.33,-25.21,-75.6,Критический случай!
средние доходы,сотрудник,начальное,30,11,26.83,-18.71,-69.7,Критический случай!
выше среднего доходы,компаньон,начальное,5,1,16.67,-8.55,-51.3,Критический случай!
...,...,...,...,...,...,...,...,...
высокие доходы,студент,высшее,0,0,,,,Крайние значения
высокие доходы,студент,начальное,0,0,,,,Крайние значения
высокие доходы,студент,неоконченное высшее,0,0,,,,Крайние значения
высокие доходы,студент,среднее,0,0,,,,Крайние значения


Зависимость категорий total_income_group с income_type и purpose_lemma:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
total_income_group,income_type,purpose_lemma,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
низкие доходы,безработный,на недвижимость,0,1,100.00,-91.88,-91.9,Критический случай!
низкие доходы,в декрете,на автомобиль,0,1,100.00,-91.88,-91.9,Критический случай!
низкие доходы,компаньон,на свадьбу,70,12,14.63,-6.51,-44.5,Особая проблемная ситуация!
выше среднего доходы,сотрудник,на автомобиль,395,65,14.13,-6.01,-42.5,Особая проблемная ситуация!
выше среднего доходы,компаньон,на свадьбу,151,22,12.72,-4.60,-36.2,Особая проблемная ситуация!
...,...,...,...,...,...,...,...,...
высокие доходы,предприниматель,на образование,0,0,,,,Крайние значения
высокие доходы,студент,на автомобиль,0,0,,,,Крайние значения
высокие доходы,студент,на недвижимость,0,0,,,,Крайние значения
высокие доходы,студент,на образование,0,0,,,,Крайние значения


**Вывод**

На вопрос "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?", можно сказать следующее - есть отклонение/зависимость в худшую сторону у заемщиков со "средними доходами" и с "выше среднего доходами" на 13,8% и 4,6% соответственно от исходной средней величины. Положительные результаты у категорий "низкие доходы", "высокие доходы" на 6%, 18,2% соответственно.

Стоит отметить в комбинациях с полом и целями, есть ярко выраженные положительный перевес женского пола.

Как и в других, ранее проведенных комбинациях, есть явная зависимость от уровня образования.

#### Зависимость с учетом целей кредита

- Как разные цели кредита влияют на его возврат в срок?

In [61]:
#сформируем сводную таблицу
data_pivot_purpose = pd.pivot_table(df, index = ['purpose_lemma'], \
                            columns = 'debt_group', values = 'debt', aggfunc = 'count')

#добавим столбец относительной величины просрочек к общим кредитам
data_pivot_purpose['avg_debt_%'] = round(data_pivot_purpose['с просрочкой'] \
                          / (data_pivot_purpose['с просрочкой'] + data_pivot_purpose['без просрочек']) * 100, 2)

#добавим столбец, в котором покажем с отклонениями от среднего показателия
data_pivot_purpose['deviation'] = round(avg_debt - data_pivot_purpose['avg_debt_%'], 2)

#добавим столбец, показывающий на сколько % отклонение от средней величины
data_pivot_purpose['deviation_%'] = round(data_pivot_purpose['deviation'] / data_pivot_purpose['avg_debt_%'] * 100, 1)

#применим функцию категоризации отклонений от среднего показателия
category_special_case(data_pivot_purpose)

#выведим таблицу на экран и одновременно отсортируем по столбцу отклонений от среднего
display(data_pivot_purpose.sort_values('deviation', ascending=True))


debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
purpose_lemma,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
на автомобиль,3902,403,9.36,-1.24,-13.2,Проблемная ситуация.
на образование,3643,370,9.22,-1.1,-11.9,Проблемная ситуация.
на свадьбу,2138,186,8.0,0.12,1.5,Хорошая ситуация
на недвижимость,10029,782,7.23,0.89,12.3,Хорошая ситуация


Как видим из таблицы при применении только одного вида категории, а в данном случае это по целям кредита, отклонения от среднего значения, также как и в предыдущем исследовании есть, отклонения от среднего значения в районе 11-13% в проблемную сторону и до 12% в положительную сторону.

Поэтому сделаем комбинации с другими категориями и посмотрим меняются ли отклонения, есть ли зависимости в комбинациях. Применим дополнительно по очереди следующие зависимости:
* пол
* рабочий статус
* образование

Категории: "наличие детей", "семейный статус", "уровень доходов" мы уже  использовать с "целями кредита" не будем, т.к. уже использовали в предыдущем исследовании.

In [62]:
#создаем лист из возможных дополнительных комбинаций
list_addiction_with_purpose_lemma = ['gender', 'income_type', 'education']

In [63]:
#применим функцию для  комбинации основной категории с одной дополнительной
create_combination('purpose_lemma', list_addiction_with_purpose_lemma)

Зависимость категорий purpose_lemma и gender:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
purpose_lemma,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
на образование,m,1183.0,163.0,12.11,-3.99,-32.9,Проблемная ситуация.
на автомобиль,m,1278.0,168.0,11.62,-3.5,-30.1,Проблемная ситуация.
на свадьбу,m,684.0,78.0,10.24,-2.12,-20.7,Проблемная ситуация.
на недвижимость,m,3387.0,338.0,9.07,-0.95,-10.5,Проблемная ситуация.
на автомобиль,f,2624.0,235.0,8.22,-0.1,-1.2,Проблемная ситуация.
на образование,f,2460.0,207.0,7.76,0.36,4.6,Хорошая ситуация
на свадьбу,f,1454.0,108.0,6.91,1.21,17.5,Хорошая ситуация
на недвижимость,f,6641.0,444.0,6.27,1.85,29.5,Хорошая ситуация
на недвижимость,xna,1.0,,,,,Крайние значения


Зависимость категорий purpose_lemma и income_type:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
purpose_lemma,income_type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
на недвижимость,безработный,1.0,1.0,50.0,-41.88,-83.8,Критический случай!
на автомобиль,сотрудник,1928.0,244.0,11.23,-3.11,-27.7,Проблемная ситуация.
на образование,сотрудник,1851.0,229.0,11.01,-2.89,-26.2,Проблемная ситуация.
на свадьбу,компаньон,473.0,52.0,9.9,-1.78,-18.0,Проблемная ситуация.
на недвижимость,сотрудник,5129.0,486.0,8.66,-0.54,-6.2,Проблемная ситуация.
на свадьбу,сотрудник,1115.0,102.0,8.38,-0.26,-3.1,Проблемная ситуация.
на образование,госслужащий,237.0,21.0,8.14,-0.02,-0.2,Проблемная ситуация.
на автомобиль,компаньон,967.0,85.0,8.08,0.04,0.5,Хорошая ситуация
на автомобиль,госслужащий,263.0,22.0,7.72,0.4,5.2,Хорошая ситуация
на образование,компаньон,882.0,72.0,7.55,0.57,7.5,Хорошая ситуация


Зависимость категорий purpose_lemma и education:


Unnamed: 0_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
purpose_lemma,education,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
на свадьбу,начальное,24.0,4.0,14.29,-6.17,-43.2,Особая проблемная ситуация!
на недвижимость,начальное,128.0,16.0,11.11,-2.99,-26.9,Проблемная ситуация.
на автомобиль,начальное,49.0,6.0,10.91,-2.79,-25.6,Проблемная ситуация.
на автомобиль,неоконченное высшее,137.0,16.0,10.46,-2.34,-22.4,Проблемная ситуация.
на образование,среднее,2594.0,298.0,10.3,-2.18,-21.2,Проблемная ситуация.
на автомобиль,среднее,2747.0,314.0,10.26,-2.14,-20.9,Проблемная ситуация.
на свадьбу,среднее,1467.0,149.0,9.22,-1.1,-11.9,Проблемная ситуация.
на образование,неоконченное высшее,119.0,12.0,9.16,-1.04,-11.4,Проблемная ситуация.
на образование,начальное,50.0,5.0,9.09,-0.97,-10.7,Проблемная ситуация.
на недвижимость,неоконченное высшее,346.0,34.0,8.95,-0.83,-9.3,Проблемная ситуация.


Особо стоит подчеркнуть зависимость с дополнительной катоегорией по полу, ярко выраженна негативная составляющая по мужскому полу(проблемные ситуации).

Также подчеркнем, ярко прослеживающую зависимость с уровнем образования.

In [64]:
#применим функцию для комбинации основной категории с двумя дополнительными
create_combination_twice('purpose_lemma', list_addiction_with_purpose_lemma)

Зависимость категорий purpose_lemma с gender и education:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
purpose_lemma,gender,education,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
на свадьбу,f,начальное,17.0,3.0,15.0,-6.88,-45.9,Особая проблемная ситуация!
на автомобиль,m,начальное,18.0,3.0,14.29,-6.17,-43.2,Особая проблемная ситуация!
на образование,m,среднее,839.0,134.0,13.77,-5.65,-41.0,Особая проблемная ситуация!
на автомобиль,m,среднее,890.0,132.0,12.92,-4.8,-37.2,Особая проблемная ситуация!
на свадьбу,m,начальное,7.0,1.0,12.5,-4.38,-35.0,Особая проблемная ситуация!
на недвижимость,m,начальное,56.0,8.0,12.5,-4.38,-35.0,Особая проблемная ситуация!
на свадьбу,m,среднее,468.0,62.0,11.7,-3.58,-30.6,Проблемная ситуация.
на образование,m,начальное,23.0,3.0,11.54,-3.42,-29.6,Проблемная ситуация.
на автомобиль,f,неоконченное высшее,86.0,11.0,11.34,-3.22,-28.4,Проблемная ситуация.
на недвижимость,m,неоконченное высшее,127.0,16.0,11.19,-3.07,-27.4,Проблемная ситуация.


Зависимость категорий purpose_lemma с income_type и education:


Unnamed: 0_level_0,Unnamed: 1_level_0,debt_group,без просрочек,с просрочкой,avg_debt_%,deviation,deviation_%,category_special_case
purpose_lemma,income_type,education,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
на образование,госслужащий,начальное,2.0,1.0,33.33,-25.21,-75.6,Критический случай!
на свадьбу,компаньон,начальное,3.0,1.0,25.00,-16.88,-67.5,Критический случай!
на недвижимость,компаньон,начальное,11.0,3.0,21.43,-13.31,-62.1,Критический случай!
на автомобиль,сотрудник,начальное,23.0,5.0,17.86,-9.74,-54.5,Критический случай!
на недвижимость,сотрудник,начальное,63.0,13.0,17.11,-8.99,-52.5,Критический случай!
...,...,...,...,...,...,...,...,...
на образование,сотрудник,ученая степень,1.0,,,,,Крайние значения
на свадьбу,госслужащий,начальное,1.0,,,,,Крайние значения
на свадьбу,госслужащий,неоконченное высшее,2.0,,,,,Крайние значения
на свадьбу,пенсионер,неоконченное высшее,3.0,,,,,Крайние значения


**Вывод**

На вопрос "Как разные цели кредита влияют на его возврат в срок?", можно сказать следующее - есть отклонение/зависимость в худшую сторону у заемщиков с целями на "автомобиль" и на "образование" на 13% и 11,5% соответственно от исходной средней величины. Положительные результаты у категорий с целями на "свадьбу", "недвижимость" на 2,2%, 11,7% соответственно.

Особо подчеркнем зависимость с дополнительной катоегорией по полу, т.к. ярко выраженна негативная составляющая по мужскому полу(проблемные ситуации), у женского пола в основе положительные ситуации.

Также подчеркнем, ярко прослеживающую зависимость с уровнем образования, выше образование лучше ситуации с выплатами.

## Шаг 4. Общий вывод

Мы успешно провели все пункты проектной работы - заказа. Провели предобработку данных. Наглядно вывели все необоходимые для работы данные. 

На каждый вопрос заказчика, подробно ответили. Сделали выводы.

Что можно сказать по общей ситуации?

Почти в каждом из 4 вопросов-ситуаций, везде были отклонения категорий в худшую сторону в среднем до 13% от средней величины и в положительную до 24%. На сколько это существенно уже принимать решение заказчикам. Однако разбег от крайностей показателей отклонений получается уже существенный до 40%.

Мужчины, чаще женщин находятся в так называемых зонах - "Критические ситуации" и "Особые проблемные ситуации". Это вполне вероятно из-за того, что мужчинам присуща смелость и, в тоже время чаще, излишняя самоуверенность в своих силах.

Особо стоит подчеркнуть, во всех 4 пунктах исследований, при комбинациях есть четкая зависимость по уровню образования, чем выше образование, тем лучше с выплатой займов. Это, скорее всего, связанно с тем, что люди с более высоким образование, больше просчитывают свои возможности и силы, а также более ответственнее.

При выводе сводных таблиц с применение одной категории, чаще отклонения в худшую сторону составляет до 13% от средней величины почти по всем 4м исследованиям. И только при применении в комбинации с другими категориями, мы видим значительный резонанс зависимостей. 

Зависимость явно проявляется при комбинациях с другими категориями, как с одной доп. категорией, так и особенно с двумя категориями.

Заказчикам стоит также обратить внимание, что многие критические и особые проблемные состояния сформированы на малых выборках, и не совсем будут отражать объективные данные. Стоит с осторожностью их применять в работе.

На больших данных, мы могли бы применить значительно больше комбинаций и результаты были бы намного объективнее. 
