# Исследование надежности заёмщиков

**Цель проекта** - проверить, влияет ли семейное положение и количество детей клиента на погашение кредита, и построить систему, которая оценивает способность потенциального заёмщика вернуть кредит.

**Ход исследования**:
1. Обзор данных
2. Предобработка данных
3. Анализ полученных результатов

# 1. Обзор данных

 Составим первое представление о имеющихся данных, воспользовавшись библиотекой `pandas`.

In [1]:
import pandas as pd
import numpy as np # в дальнейшем потребуется заменить значения столбца на NaN, поэтому импортируем библиотеку numpy

In [2]:
df = pd.read_csv('data.csv')

In [3]:
df.head(3)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Согласно документации: 

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

Заметим, что в столбцах `days_employed` и `total_income` имеется большое количество пропусков, причём их количество в обоих столбцах равное. Причиной такого "синхронного" количества пропусков могло стать некорректное заполнение значений у безработных - значения `days_employed` и `total_income` в таком случае могли попросту не заполняться.

Чтобы смягчить влияние пропусков на анализ, на втором этапе исследования заполним их медианными значениями. Такое избавление от пропусков "усреднит" данные, из-за чего риск возникновения недействительных "перепадов" станет значительно меньше.

Найдём долю пропущенных значений в столбцах, чтобы оценить уровень влияния пропусков на последующий анализ.

In [5]:
print('Доля пропущенных значений в столбце days_employed составляет:', 
      format(df.days_employed.isna().sum() / df.days_employed.shape[0], '.4f'))

Доля пропущенных значений в столбце days_employed составляет: 0.1010


In [6]:
print('Доля пропущенных значений в столбце total_income составляет:', 
      format(df['total_income'].isna().sum() / df['total_income'].shape[0], '.4f'))

Доля пропущенных значений в столбце total_income составляет: 0.1010


# 2. Предобработка данных

Видим, что доля пропущенных значений в двух столбцах составляет около 10%, что для нас неприемлемо.
Начнём предобработку данных с заполнения пропусков в столбце `total_income` медианными значениями.

In [7]:
df['total_income'] = df['total_income'].fillna(df['total_income'].median())

Проверим успешность выполнения команды:

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Как видим, пропущенных значений в столбце `total_income` больше нет.

На стадии обзора данных можно было заметить, что значения столбца `days_employed` реверсированы - значения количества дней являются отрицательными. Проверим это, вызвав первые 10 значений данного столбца, а также выведем уникальные значения столбца `children`, чтобы проверить, имеется ли в нём такая же проблема:

In [9]:
display(df['days_employed'].head(10))
df['children'].unique()

0     -8437.673028
1     -4024.803754
2     -5623.422610
3     -4124.747207
4    340266.072047
5      -926.185831
6     -2879.202052
7      -152.779569
8     -6929.865299
9     -2188.756445
Name: days_employed, dtype: float64

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

Действительно, почти все значения среди первых 10 в столбце `days_employed` - отрицательные, а одно из значений - слишком большое. 

В столбце `children`, помимо отрицательных значений, есть также одно аномальное значение - 20 детей. Это явная ошибка данных, которую стоит исправить.

Напишем функцию, которая будет принимать значение из столбца и изменять его знак в том случае, если значени отрицательное. Сделаем блок `try-except` для возможных ошибок.

In [10]:
def change_sign(days):
    try:
        if days < 0:
            return days * -1
        else:
            return days
    except:
        print('Некорректное значение пропущено')

Применим эту функцию ко всем значениям столбца `days_employed` с помощью метода `apply()`:

In [11]:
df.days_employed = df.days_employed.apply(change_sign)

Для аномальных значений воспользуемся методом `replace()` и заменой значения посредством логической индексации. Заменять аномальные значения будем на медианные.

In [12]:
df['children'] = df['children'].replace({-1: 1, 20: df['children'].median()})
df.loc[df['days_employed'] > 30000, 'days_employed'] = np.nan # заменим аномальные значения на NaN, чтобы они не исказили медианное значение
df['days_employed'] = df['days_employed'].fillna(df['days_employed'].median())

Проверим успешность замены некорректных значений:

In [13]:
display(df.head(5))
df['children'].unique()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,1630.019381,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


array([1, 0, 3, 2, 4, 5], dtype=int64)

Все значения теперь имеют правильный знак, а аномальные заменены на медианные. Движемся далее.

В столбце `days_employed` оставались пропуски - проверим успешность их заполнения:

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Все пропуски успешно заполнены.

Приведём все значения столбца `total_income` к целочисленному `int`, чтобы было удобнее с ними работать:

In [15]:
df['total_income'] = df['total_income'].astype('int')

In [16]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,1630.019381,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


Прежде, чем продолжать исследование, проверим таблицу на наличие дубликатов:

In [17]:
df.duplicated().sum()

54

В нашей таблице имеется 54 дубликата. Удалим их и перезапишем индексы таблицы:

In [18]:
df = df.drop_duplicates().reset_index(drop=True)

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21471 entries, 0 to 21470
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int64  
 1   days_employed     21471 non-null  float64
 2   dob_years         21471 non-null  int64  
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      21471 non-null  int32  
 11  purpose           21471 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 1.9+ MB


Как видим, удаление дубликатов прошло успешно.

Проверим все уникальные значения столбцов `education` и `income_type` на наличие дубликатов:

In [20]:
print(df['education'].unique())
print(df['income_type'].unique())

['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']
['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']


В столбце `income_type` дубликатов нет, а с `education` есть проблемы.

Среди всех значений столбца `education` есть дубликаты, которые отличаются друг от друга лишь регистром. Исправим это, написав функцию, которая приведёт все значения столбца к нижнему регистру, и применив её к столбцу `education` при помощи метода `apply()`:

In [21]:
def to_lower(name):
    try:
        return name.lower()
    except:
        print('Некорректное значение пропущено')

In [22]:
df['education'] = df['education'].apply(to_lower)

Проверим работу метода:

In [23]:
df['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Теперь дубликаты отсутствуют. 

Поиск явных дубликатов производили при помощи метода `duplicated().sum()`, который искал дубликаты и суммировал их. Так как явных дубликатов было всего 54, было принято решение удалить их, ведь на данные анализа серьёзное влияние это не окажет.

Неявные дубликаты наиболее вероятны в столбцах `education` и `income_type`, так как их значения - различные строки. В столбце `income_type` дубликатов не было, а в `education` оказались одни и те же значения, записанные разным регистром. Такие дубликаты могли возникнуть в результате отсутствия строгой инструкции при заполнении таблицы - разные сотрудники решали по разному записывать данные.

Объединим в новую таблицу значения столбца `education` и их индексы - значения столбца `education_id`. Выведем первые несколько строк:

In [24]:
education_df = df[['education', 'education_id']]
education_df.head(3)

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,среднее,1


Аналогично проделаем для столбцов `family_status` и `family_status_id`:

In [25]:
family_status_df = df[['family_status', 'family_status_id']]
family_status_df.head(5)

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,женат / замужем,0
2,женат / замужем,0
3,женат / замужем,0
4,гражданский брак,1


Удалим из основной таблицы столбцы `education` и `family_status`, оставив лишь их индексы, чтобы сделать анализ более удобным:

In [26]:
df = df.drop(columns=['education', 'family_status'])
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,1630.019381,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


Чтобы сгруппировать клиентов по размеру дохода, напишем функцию со следующим функционалом:
- Если доход менее 30.001, то клиенту присваивается категория дохода "E"
- Если доход менее 50.001, но более 30.000, то клиенту присваивается категория дохода "D"
- Если доход менее 200.001, но более 50.000, то клиенту присваивается категория дохода "C"
- Если доход менее 1.000.001, но более 200.000, то клиенту присваивается категория дохода "B"
- Если доход более 1.000.000, то клиенту присваивается категория дохода "A"

Применим её к столбцу `total_income`, создав новый столбец `total_income_category`:

In [27]:
def set_income_category(income):
    try:
        if income < 30001:
            return 'E'
        elif (income > 30000) & (income < 50001):
            return 'D'
        elif (income > 50000) & (income < 200001):
            return 'C'
        elif (income > 200000) & (income < 1000001):
            return 'B'
        elif income > 1000000:
            return 'A'
    except:
        print('Некорректное значение пропущено')

In [28]:
df['total_income_category'] = df['total_income'].apply(set_income_category)

In [29]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,1630.019381,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


Функция работает исправно и верно присваивает категории по уровню дохода. Перейдём к категоризации целей кредита.

Выведем все уникальные значения столбца `purpose`:

In [30]:
df.purpose.unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Заметим, что все цели можно легко сгруппировать по категориям:
- операции с автомобилем
- операции с недвижимостью
- проведение свадьбы
- получение образования

В каждом уникальном значении имеются некоторые одинаковые подстроки, на основе которых мы и будем проводить поиск значений. Напишем функцию, которая будет присваивать определённую категорию клиенту в зависимости от наличия той или иной подстроки в цели кредита:
- "операции с автомобилем" при наличии подстроки "автомобил"
- "операции с недвижимостью" при наличии подстроки "жиль" или "недвижимост"
- "проведение свадьбы" при наличии подстроки "свадьб"
- "получения образования" при наличии подстроки "образован"
- "категория не определена", если ни одна из указанных подстрок не была найдена

Применим эту функцию к столбцу `purpose`, создав новый столбец `purpose_category` в таблице:

In [31]:
def set_purpose_category(purpose):
    try:
        if (purpose.find('автомобил')) != -1:
            return 'операции с автомобилем'
        elif ((purpose.find('жиль') != -1)) | ((purpose.find('недвижимост') != -1)):
            return 'операции с недвижимостью'
        elif (purpose.find('свадьб') != -1):
            return 'проведение свадьбы'
        elif (purpose.find('образован') != -1):
            return 'получение образования'
        else:
            return 'категория не определена'
    except:
        print('Некорректное значение пропущено')

In [32]:
df['purpose_category'] = df.purpose.apply(set_purpose_category)
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,1630.019381,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


Как видим, функция работает исправно и верно присваивает категории в зависимости от цели кредита.

Проверим также, были ли случаи, когда категория не определилась, выведя все уникальные значения столбца `purpose_category`:

In [33]:
df['purpose_category'].unique()

array(['операции с недвижимостью', 'операции с автомобилем',
       'получение образования', 'проведение свадьбы'], dtype=object)

Среди категорий есть лишь 4 необходимых, а значит проблем с присваиванием не возникло.

In [34]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,1630.019381,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


# 3. Анализ полученных данных

Предобработка данных завершена, теперь можно переходить к ответу на вопросы исследования.

## Первый вопрос: **Есть ли зависимость между количеством детей и возвратом кредита в срок?**

Составим сводную таблицу: сгруппируем по количеству детей, выведем количество задолженностей, общее количество таких клиентов и долю задолженностей:

In [35]:
display(df.pivot_table(values='debt', aggfunc=['sum', 'count', 'mean'], index='children'))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1071,14183,0.075513
1,445,4856,0.091639
2,194,2052,0.094542
3,27,330,0.081818
4,4,41,0.097561
5,0,9,0.0


Из имеющихся данных можно сделать вывод, что зависимость между количеством детей и возвратом кредита в срок следующая:
- доля задолженностей увеличивается от 0 к 2 детям
- при 3 детях доля ниже, однако выборка гораздо меньше, что является критичным для составления объективного анализа
- большее количество детей имеет ещё более низкую выборку, отчего делать какие-то выводы нельзя, так как результат может быть искажён случайным разбросом
- случаев, когда клиент с пятью детьми не выплатил кредит в срок, не было
    - однако это не указывает на надёжность таких клиентов, т.к. всего клиентов с 5 детьми было 9 штук, что недостаточно для составления какой-либо объективной статистики

## Второй вопрос: **Есть ли зависимость между семейным положением и возвратом кредита в срок?**

Составим сводную таблицу: сгруппируем по семейному статусу, выведем количество задолженностей, общее количество таких клиентов и долю задолженностей:

In [36]:
display(df.pivot_table(values='debt', aggfunc=['sum', 'count', 'mean'], index='family_status_id'))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,931,12344,0.075421
1,388,4163,0.093202
2,63,959,0.065693
3,85,1195,0.07113
4,274,2810,0.097509


Из документации:
- 0: 'женат / замужем'
- 1: 'гражданский брак'
- 2: 'вдовец / вдова'
- 3: 'в разводе'
- 4: 'Не женат / не замужем'

Исходя из имеющихся данных, можно сказать, что:
- одинаковый риск имеют группы состоящих в официальном браке и разведённых
- наиболее высокий риск имеют группы состоящих в гражданском браке и тех, кто в браке не состоял
- вдовцы и вдовы имеют наименьший риск, однако они имеют наименьшую (хоть и значительную) выборку

Вывод: возврат кредита в срок зависит от семейного положения: группа 2 обладает наименьшим риском, риск возрастает у групп 0 и 3 и становится максимальным у групп 1 и 4.

## Третий вопрос: **Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

Составим сводную таблицу: сгруппируем по категориям дохода, выведем количество задолженностей, общее количество таких клиентов и долю задолженностей:

In [37]:
display(df.pivot_table(values='debt', aggfunc=['sum', 'count', 'mean'], index='total_income_category'))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,2,25,0.08
B,356,5041,0.070621
C,1360,16033,0.084825
D,21,350,0.06
E,2,22,0.090909


Заметим, что выборка у групп A и E крайне мала, отчего объективную оценку зависимости дать невозможно. Группа D также имеет небольшую выборку, однако её размер даёт возможность предположить зависимость.

Итого, имеем:
- группа C имеет наибольший риск
- группа B, несмотря на меньший доход, нежели у группы C, более надёжная для банка
- группа D среди всех групп наиболее надёжная, однако из-за не слишком большой выборки чёткие результаты давать нецелесообразно

Вывод: возврат кредита в срок зависит от уровня дохода, но чёткую статистику можно дать только для двух групп - с увеличением уровня дохода от группы B до группы C наблюдаем интересную статистику - доля своевременных выплат уменьшается, несмотря на увеличение дохода.

## Третий вопрос: **Как разные цели кредита влияют на его возврат в срок?**

Составим сводную таблицу: сгруппируем по целям кредита, выведем количество задолженностей, общее количество таких клиентов и долю задолженностей:

In [38]:
display(df.pivot_table(values='debt', aggfunc=['sum', 'count', 'mean'], index='purpose_category'))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,403,4308,0.093547
операции с недвижимостью,782,10814,0.072314
получение образования,370,4014,0.092177
проведение свадьбы,186,2335,0.079657


Как видим, для каждой категории у нас есть достаточная выборка.

Из полученных данных видим, что возврат зависит от категории; категории имеют попарно приблизительно одинаковый риск:
- кредиты на операции с автомобилем и получение образования имеют долю невозврата приблизительно в 9 процентов
- кредиты на операции с недвижимостью и проведение свадьбы имеют долю невозврата, колеблющуюся от 7 до ~8 процентов

Из этого делаем вывод, что возврат кредита также зависит и от цели кредита.

# Общий вывод

Для каждого из вопросов была найдена зависимость:
- от количества детей
- от семейного положения
- от дохода
- от цели кредита

Однако в каждом из случаев зависимость проявлялась не чётко - расхождения между долей невозвратов были в рамках нескольких процентов, отчего нельзя твёрдо и четко определить действительную зависимость. Такое расхождение может быть просто статистическим расхождением, которое зависит также от других данных клиента.