# Исследование надежности заемщиков.

Описание исследования.

Заказчиком проекта является кредитный отдел банка.
Нужно выяснить влияние нескольких параметров - семейного положения, количества детей у клиента, уровня дохода и целей кредита -  на способность погашения кредита в срок.
Входные данные от банка — статистика о платёжеспособности клиентов.
    
Цель исследования.
    
Представить информацию и выводы для построения модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
    
Задачи исследования.
    
Установить наличие зависимости между количеством детей и возвратом кредита в срок.
Выяснить, как влияет семейное положение на способность заёмщика вернуть кредит в течение установленного в договоре срока.
Установить характер зависимости (если она есть) возврата кредита согласно договору от уровня дохода.
Выяснить, влияют ли (и как) разные цели кредита на его возврат в срок.
Интерпретировать результаты решения задач с учётом социальной специфики каждой категории заёмщиков и характера социальных отношений в российском обществе. 
    
Исходные данные.
    
Исходные данные представленны в виде таблицы csv.
В таблице 'data' представленны двенадцать параметров для анализа: children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose.
В двух столбцах (days_employed и total_income) данные представленны не полностью. Кроме того, большая часть числовой информации в столбце days_employed имеет отрицательное значение.
В столбцах education и family_status присутствуют скрытые дубликаты.
Столбец children содержит по меньшей мере одну аномалию.
Информация в таблице представленна в виде типов данных: float(два столбца), int(пять столбцов), object(пять столбцов)
Общий объём данных в таблице несколько превышает 2 мегабайта.
    
Структура исследования.
    
[Часть 1. Обзор данных.](#Step1)

[Часть 2. Подготовка данных.](#Step2)
  1. Проверка данных на аномалии и исправления.
  2. Заполнение пропусков.
  3. Изменение типов данных.
  4. Удаление дубликатов.
  5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.
  6. Категоризация дохода.
  7. Категоризация целей кредита.

[Часть 3. Исследование и интерпретация данных.](#Step3)
1. Изучение зависимости между количеством детей и возвратом кредита в срок.
2. Выявление влияния семейного положения на способность заёмщика вернуть кредит в течение установленного в договоре срока.
3. Установление наличия и характера зависимости возврата кредита согласно договору от уровня дохода.
4. Выявление влияния целей кредита на его возврат в срок.

[Часть 4. Составление общего вывода по исследованию.](#Step4)
1. Интерпретация результатов исследования.
2. Общий вывод по исследованию.
   


### Шаг 1. Обзор данных
<a id='Step1'></a>

In [1]:
import pandas as pd
data_table = pd.read_csv('/datasets/data.csv')
data_table.info()# Определяем размер таблицы, корректность названий колонок. Проверяем типы данных в каждом столбце таблицы и полноту данных


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В столбцах days_employed и total_income отсутствует по 2174 значения

### Шаг 2 Подготовка данных.
<a id='Step2'></a>

### Шаг 2.1 Проверка данных на аномалии и исправления.

In [2]:
try:
    data_table['days_employed'] = data_table['days_employed'].abs()
except:
    data_table['days_employed'] = None

    
display(data_table['days_employed'].max())

data_table_error_count = data_table[data_table['days_employed'] > 17167].count()
display(data_table_error_count)

display(data_table['days_employed'].max())

data_table.loc[data_table['days_employed'] > 17167, 'days_employed'] = None

display(data_table['days_employed'].max())

401755.40047533

children            3447
days_employed       3447
dob_years           3447
education           3447
education_id        3447
family_status       3447
family_status_id    3447
gender              3447
income_type         3447
debt                3447
total_income        3447
purpose             3447
dtype: int64

401755.40047533

16593.472817263817

In [3]:
display(data_table['children'].value_counts())

try:
    data_table['children'] = data_table['children'].abs()
except:
    data_table['children'] = None
    

data_table.loc[data_table['children'] == 20, 'children'] = 2

display(data_table['children'].value_counts())


 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [4]:
data_table['education'].value_counts()


data_table['family_status'].value_counts()

data_table['income_type'].value_counts()
data_table['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

В столбце days_employed присутствует большое количество отрицательных значений - 10,01%. Очевидно, это результат ошибки при выгрузке. Значения в колонке days_employed приведены в пригодное для анализа состояние методом abs().
Применив к той же колонке метод max() выяснил, что максимальный стаж работы, согласно данным таблицы, равен 1100 лет. Следовательно, нужно убрать невозможные значения. Если предположить, что человек может работать 8 часов в день с 18 до 65 лет включительно, максимальный стаж можно считать равным 47 годам. Значения, превышающие этот срок нужно удалить и заменить на None, а затем - на среднее значение по столбцу, где 47 лет (17167 дней / 47 * 365,25) - максимальное значение.
Значения, превышающие 47 лет в столбце days_employed составляют 16% от общего количества значений. Вместе с пустыми ячейками - 26%

В столбце children обнаружил отрицательное количество детей. Изменил отрицательное значение на положительное.
Согласно данным таблицы, 69 семей имеют 20 детей. Здесь возможна ошибка, но это могут быть и приёмные семьи с большим количеством воспитанников. В любом случае, их больше, чем семей с 4-мя детьми и значительно больше, чем детей с 5-ю детьми. Очевидно, ноль набран по ошибке, и речь идёт ещё о 69 семьях с 2-мя детьми. Произвёл замену значений "20" на  "2".
В столбцах income_type, family_status, income_type обнаружены скрытые дубликаты. Они будут удалены в шаге 2.4. 
Для обнаружения дубликатов применён метод value_counts(), поскольку он возвращает уникальные зачения и их количество.



### Шаг 2.2 Заполнение пропусков

In [5]:
days_employed_median = data_table['days_employed'].median()

total_income_median = data_table['total_income'].median()

data_table['days_employed'].fillna(days_employed_median, inplace=True)
data_table['total_income'].fillna(total_income_median, inplace=True)
#display(data_table['total_income'].head(30))


Пропущены данные в столбцах: days_employed и total_income. Судя по всему, эти данные пропущены в одних и тех же строках. То есть - их не предоставили одни и те же клиенты. Вероятно они не имеют постоянного источника дохода, либо находятся на пенсии.
Пропуски в каждом из двух столбцов составляют 10,1%, что довольно заметно. Кроме того, в столбце days_employed 16% составляют нереалистичные значения. Это слишком много для удаления строк. Данные были бы серьёзно искажены. По этому в столбце days_employed нереалистичные значения заменены на None, затем отсутсвующие значения и None заменены на медианное по столбцу.
В столбце total_income заполнить пропуски медианным значением лучшая идея, поскольку, поместив в ячейки среднее значение, мы рискуем получить сильно искажённые данные, из-за большого разброса в заработной плате(Разница между максимальным и минимальным значениями дохода - 106 раз.).
Строковые значения в столбце education записаны с применением разных регистров. Привёл их к единообразию методом str.lower().
То же с колонкойfamily_status.


### Шаг 2.3. Изменение типов данных.

In [6]:
try:
    data_table['total_income'] = data_table['total_income'].astype(int)
except:
    data_table['total_income'] = data_table['total_income']
display(data_table['total_income'])

0        253875
1        112080
2        145885
3        267628
4        158616
          ...  
21520    224791
21521    155999
21522     89672
21523    244093
21524     82047
Name: total_income, Length: 21525, dtype: int32

### Шаг 2.4. Удаление дубликатов.

In [7]:
data_table['education'] = data_table['education'].str.lower()

data_table['family_status'] = data_table['family_status'].str.lower()

data_table['income_type'] = data_table['income_type'].replace('компаньон', 'предприниматель')
data_table['income_type'] = data_table['income_type'].replace('госслужащий', 'сотрудник')


data_table['income_type'].value_counts()


сотрудник          12578
предприниматель     5087
пенсионер           3856
безработный            2
студент                1
в декрете              1
Name: income_type, dtype: int64

Явных дубликатов в таблице нет.
Неявные дубликаты, выявленные в столбцах education и family_status обработаны с применением
метода str.lower(), приводящего значения к одному регистру и избавляющего от неявного
дублирования значений. 
Неявные дубликаты, выявленные в столбце income_type обработаны методом replace():
значения "компаньон" заменены на "предприниматель", поскольку первое - частный случай второго. 
Значения "госслужащий" заменены на "сотрудник", по той же причине.
Метод value_counts() позволяет убедиться, что скрытые дубликаты исчезли из столбца.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [8]:
education_dic = data_table[['education_id', 'education']] 
education_dic = education_dic.drop_duplicates().reset_index(drop=True).set_index('education_id')

family_status_dic = data_table [['family_status_id', 'family_status']]
family_status_dic = family_status_dic.drop_duplicates().reset_index(drop=True).set_index('family_status_id')

data_table.drop(columns = ['education', 'family_status'], axis = 1, inplace = True)
#display(data_table)

display(education_dic.tail(30))
display(family_status_dic)

Unnamed: 0_level_0,education
education_id,Unnamed: 1_level_1
0,высшее
1,среднее
2,неоконченное высшее
3,начальное
4,ученая степень


Unnamed: 0_level_0,family_status
family_status_id,Unnamed: 1_level_1
0,женат / замужем
1,гражданский брак
2,вдовец / вдова
3,в разводе
4,не женат / не замужем


### Шаг 2.6. Категоризация дохода.

In [9]:
def total_income_category(income):
    '''
     Возвращает возрастную группу по значению дохода income, используя правила:
    - 'E', если income <= 3000;
    - 'D', если income от 3001 до 50000;
    - 'C', если income от 50001 до 200000;
    - 'B', если income от 200001 до 1000000;
    - 'A', если income 1000001 и выше.
    '''
    if income <= 3000:
        return 'E'
    if income <= 50000:
        return 'D'
    if income <= 200000:
        return 'C'
    if income <= 1000000:
        return 'B'
    return 'A'
#Тестирую корректность работы функции
display(total_income_category(53637))


data_table['total_income_category'] = data_table['total_income'].apply(total_income_category)
#display(data_table)


'C'

### Шаг 2.7. Категоризация целей кредита.

In [10]:
#data_table['purpose'].value_counts()

def purpose_category(purpose):
    '''
     Возвращает единую формулировку по каждой цели заёмщиков по значению цели кредита purpose,
     используя правила:
    - 'операции с автомобилем', если в строке purpose встречается 'автомобил';
    - 'операции с недвижимостью', если в строке purpose встречается 'недвижимост';
    - 'проведение свадьбы', если в строке purpose встречается 'свадьб';
    - 'получение образования', если в строке purpose встречается 'образовани'.
    '''
    if purpose.find('свадьб') >= 0:
        return 'проведение свадьбы'
    if purpose.find("автомобил") >= 0:
        return 'операции с автомобилем'
    if purpose.find('недвижимост') >= 0:
        return 'операции с недвижимостью'
    if purpose.find('жил') >= 0:
        return 'операции с недвижимостью'
    if purpose.find('образовани') >= 0:
        return 'получение образования'
    


data_table['purpose_category'] = data_table['purpose'].apply(purpose_category)
display(data_table)

'операции с недвижимостью'

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.422610,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,1629.851736,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,1,1,F,предприниматель,0,224791,операции с жильем,B,операции с недвижимостью
21521,0,1629.851736,67,1,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем
21522,1,2113.346888,38,1,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21523,3,3112.481705,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем


### Шаг 3. Ответы на вопросы.
<a id='Step3'></a>

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [11]:
final_data_table = data_table.pivot_table(index='children', columns="debt", values='total_income', aggfunc=['median'])

grouped_table = data_table.groupby('children').agg({'debt': ['mean', 'sum', 'count']})

display(final_data_table)
display(grouped_table)

Unnamed: 0_level_0,median,median
debt,0,1
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,145017.0,145017.0
1,145017.0,145017.0
2,145017.0,145017.0
3,145017.0,145017.0
4,145017.0,164076.0
5,168460.0,


Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,mean,sum,count
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,0.075129,1063,14149
1,0.09147,445,4865
2,0.094791,202,2131
3,0.081818,27,330
4,0.097561,4,41
5,0.0,0,9


##### Вывод 1:

Сводная таблица показывает, что в 5-ти группах семей из 6-ти средний размер дохода исправных плательщиков и должников не отличается, кроме семей с тремя детьми.
Медианная зарплата в каждой группе различается ещё меньше, кроме семей с 4-мя детьми, где должники имеют больший доход, чем не имеющие задолженности. Семьи с 5-ю детьми имеют доход на 16.16% более высокий, чем другие плательщики.
Из второй таблицы видно, что разница в среднем размере задолженности бездетных заёмщиков и заёмщиков с 4-мя детьми составляет 2.2 процентных пункта, что представляется некритичным.
Но если объём задолженности бездетных взять за 100%, задолженность семей с 4-мя детьми будет на 13% выше.
Что заметно, но не критично.
Обращает на себя внимание, что семьи с 5-детьми не имеют задолженности вовсе. Они могут быть более дисциплинированы в силу жизненных обстоятельств. Либо у нас нет репрезентативных данных. В списке всего 9 таких семей и отсутствие задолженности у всех девяти может быть случайным.
Отсутствие детей несколько повышает уровень погашения кредита, но не принципиально.

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?


In [12]:
final_data_table = data_table.pivot_table(index='family_status_id', columns="debt", values='total_income', aggfunc=['median'])

grouped_table = data_table.groupby('family_status_id').agg({'debt': ['mean', 'sum', 'count']})

display(final_data_table)
display(grouped_table)

Unnamed: 0_level_0,median,median
debt,0,1
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2
0,145017,145017
1,145017,145017
2,134549,145017
3,145017,145017
4,145017,145017


Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,mean,sum,count
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,0.075202,931,12380
1,0.09289,388,4177
2,0.065625,63,960
3,0.07113,85,1195
4,0.097405,274,2813


##### Вывод 2:

Средний доход в группах по семейному статусу для должников и исправных плательщиков принципиально не отличается. Средний доход разведённых должников несколько превышает этот показатель у дисциплинированных заёмщиков. Если сравнивать медианный доход групп по семейному статусу, можно обнаружить, что он идентичен у всех, кроме исправно платящих вдовцов,
медианный доход которых ниже, чем у всех должников.
    Вторая таблица даёт информацию о том, что средняя доля непогашенных кредитов по группам колеблется от 6.5% у вдовцов до 9.7% у не вступивших в брак. Разница в 3.2 процентных пункта не представляется значительной. Но если объём задолженности вдовцов взять за 100%, то разница с объёмом задолженности не вступивших в брак будет выглядеть значительно и составит 9.2%. Вывод о разнице в объёмах просроченных кредитов здесь будет зависеть от детализации цели заказчика.
    В целом ситуация лучше у вдовых и разведённых (они старше, и их финансовая база уже сложилась;
здесь было бы хорошо посмотреть, у кого из них есть дети, и сколько их - возможно, им не нужно тратить деньги на содержание других членов семьи). Несколько хуже справляются люди, состоящие в браке. Хуже всего ситуация у состоящих в гражданском браке и не состоящих в браке.
Здесь разница может быть вызвана чувством ответственности, которым связаны люди, состоящие или состоявшие в официально оформленном браке. Поскольку люди в этом случае осознают, что принимают на себя целый ряд обязательств по отношению к семье.

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [13]:
final_data_table = data_table.pivot_table(index='total_income_category', columns="debt", values='total_income', aggfunc='median')

total_income_grouped_table = data_table.groupby('total_income_category').agg({'debt': ['mean', 'sum', 'count']})

display(final_data_table)
display(total_income_grouped_table)

debt,0,1
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,1223042.0,1615875.5
B,257788.0,256466.5
C,133877.0,135682.5
D,43166.0,42915.0


Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,mean,sum,count
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,0.08,2,25
B,0.070621,356,5041
C,0.08454,1360,16087
D,0.061828,23,372


##### Вывод 3:

В данном случае медианный доход плательщиков и должников в каждой категории дохода приблизительно равен. Кроме категории дохода 'A', где доход должников на 32% больше, чем медианный доход исправных заёмщиков. Платёжная дисциплина у представителей зажиточного слоя не связана с уровнем дохода.
    Сводная таблица так же демонстрирует отсутствие связи между уровнем дохода и платёжной дисциплиной.
    Самый низкий уровень неплатежей показывает беднейшая категория заёмщиков (можно предположить, что это вызвано низким доходом и, как следствие, привычкой считать деньги, а также стремлением погасить кредит в срок, чтобы иметь возможность взять кредит в следующий раз; есть вероятность, что в данном случае люди перекредитовываются, чтобы погасить текущий кредит).
    Несколько меньший уровень возврата кредитов демонстрируют представители категории 'B'. Их уровень дохода позволяет им гасить кредиты, взятые на личные нужды. Вероятно, непогашенные в срок кредиты были взяты для ведения бизнеса.
    Затем идёт группа с доходом категории 'A' - самая богатая. Есть вероятность, что их долги так же связаны с состоянием бизнеса.
    И, наконец, самые недисциплинированные - заёмщики с доходом категории 'C' (50001 - 200000 рублей/мес.) Причину положения дел здесь предположить затруднительно. Возможно, часть кредитов составляет ипотека, оказавшаяся неподъёмной или кредиты, взятые для поддержания бизнеса ИП или самозанятыми. (Здесь стоило бы уточнить семейный статус и количество детей, а так же - тип дохода в каждом случае невозврата кредитов.)
    Прямой зависимости между размером дохода и погашением кредита в срок не наблюдается.

##### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

In [14]:
final_data_table = data_table.pivot_table(index='purpose_category', columns="debt", values='total_income', aggfunc=['median'])
#Группирую плательщиков по цели кредита, средний максимальный доход членов этих групп,
#погасивших и не погасивших кредит

grouped_table = data_table.groupby('purpose_category').agg({'debt': ['mean', 'sum', 'count']})
#Выясняю долю успешных и неуспешных заёмщиков в  группах, сформированных по цели кредита.
display(final_data_table)
display(grouped_table)

Unnamed: 0_level_0,median,median
debt,0,1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
операции с автомобилем,145017.0,145017.0
операции с недвижимостью,145017.0,145017.0
получение образования,145017.0,145017.0
проведение свадьбы,145017.0,144773.5


Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,mean,sum,count
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,0.093395,403,4315
операции с недвижимостью,0.07214,782,10840
получение образования,0.091994,370,4022
проведение свадьбы,0.079216,186,2348


##### Вывод 4:

В сводной таблице, как и в предыдущих случаях, можно видеть, что средний доход должников и исправных плательщиков для всех целей кредитов не отличается, за исключением тех, кто взял кредит для проведения свадеб. Здесь средний доход должников на 9% меньше дохода дисциплинированных заёмщиков. Медианный доход у обеих групп по всем категориям целей практически одинаков.
    Вторая таблица свидетельствует о том, что доля просроченных кредитов меньше всего среди тех, кто брал кредит для операций с недвижимостью. Это ожидаемо, поскольку в данном случае сумма кредита больше, кроме того, сделка заключается, как правило, с передачей самой недвижимости банку в качестве залога. Учитывая тот факт, что чаще всего речь идёт о покупке жилья (см. столбец 'purpose'), дисциплина заёмщиков в этой категории неизбежно будет выше.
    Второй по качеству возврата кредита целью стали свадьбы. Возможно, часть таких кредитов гасится за счёт денежных подарков молодожёнам, весьма вероятна помощь родителей.
    Ещё реже возвращаются кредиты на получение образования. Можно предположить, что не все студенты в состоянии учиться и зарабатывать деньги для погашения кредита в нужном количестве. (Было бы полезно узнать, какая доля неплательщиков снимает жильё или выплачивает взносы по ипотечному кредиту.)
    Больше всего просроченных кредитов в категории "операции с автомобилем". Такая ситуация возможна, поскольку автомобиль мог быть приобретён из соображений "престижа", что довольно распространено в России. В этом случае могла быть сделана эмоциональная покупка, без учёта последствий. Не являясь предметом первой необходимости или средством заработка для многих, автомобиль может в итоге оказаться на последнем месте в приоритете платежей.
    В итоге, можно заключить, что возврат кредита в срок до некоторой степени зависит от целей кредита. Или, если быть более точным, от обстоятельств, в которых реализуется та или иная цель кредитования.

## Шаг 4. Общий вывод:
<a id='Step4'></a>

В 5-ти группах семей из 6-ти, выделенных по количеству детей, средний размер дохода исправных плательщиков и должников не отличается, кроме семей с тремя детьми. Медианная зарплата в каждой группе различается ещё меньше, кроме семей с 4-мя детьми, где должники имеют больший доход, чем не имеющие задолженности. Семьи с 5-ю детьми имеют доход на 16.16% более высокий, чем другие плательщики. Разница в среднем размере задолженности бездетных заёмщиков и заёмщиков с 4-мя детьми составляет 2.2 процентных пункта, что представляется некритичным. Но если объём задолженности бездетных взять за 100%, задолженность семей с 4-мя детьми будет на 13% выше. Это заметно, но не критично. Обращает на себя внимание, что семьи с 5-детьми не имеют задолженности вовсе. Они могут быть более дисциплинированы в силу жизненных обстоятельств. Либо у нас нет репрезентативных данных. В списке всего 9 таких семей и отсутствие задолженности у всех девяти может быть случайным. Отсутствие детей несколько повышает уровень погашения кредита, но не принципиально.
    
Средний доход в группах по семейному статусу для должников и исправных плательщиков принципиально не отличается. Средний доход разведённых должников несколько превышает этот показатель у дисциплинированных заёмщиков. Если сравнивать медианный доход групп по семейному статусу, можно обнаружить, что он идентичен у всех, кроме исправно платящих вдовцов, медианный доход которых ниже, чем у всех должников. Средняя доля непогашенных кредитов по группам колеблется от 6.5% у вдовцов до 9.7% у не вступивших в брак. Разница в 3.2 процентных пункта не представляется значительной. Но если объём задолженности вдовцов взять за 100%, то разница с объёмом задолженности не вступивших в брак будет выглядеть значительно и составит 9.2%. Вывод о разнице в объёмах просроченных кредитов здесь будет зависеть от целей заказчика. В целом ситуация лучше у вдовых и разведённых (они старше, и их финансовая база уже сложилась; здесь было бы хорошо посмотреть, у кого из них есть дети, и сколько их - возможно, им не нужно тратить деньги на содержание других членов семьи). Несколько хуже справляются люди, состоящие в браке. Хуже всего ситуация у состоящих в гражданском браке и не состоящих в браке. Здесь разница может быть вызвана чувством ответственности, которым связаны люди, состоящие или состоявшие в официально оформленном браке. Поскольку люди в этом случае осознают, что принимают на себя целый ряд обязательств по отношению к семье.

В случае деления плательщиков по уровню дохода медианный доход плательщиков и должников в каждой категории дохода приблизительно равен. Кроме категории 'A', где доход должников на 32% больше, чем медианный доход исправных заёмщиков. Платёжная дисциплина у представителей зажиточного слоя не связана с уровнем дохода. Сводная таблица так же демонстрирует отсутствие связи между уровнем дохода и платёжной дисциплиной. Самый низкий уровень неплатежей показывает беднейшая категория заёмщиков (можно предположить, что это вызвано низким доходом и, как следствие, привычкой считать деньги, а также стремлением погасить кредит в срок, чтобы иметь возможность взять кредит в следующий раз; есть вероятность, что в данном случае люди перекредитовываются, чтобы погасить текущий кредит). Несколько меньший уровень возврата кредитов демонстрируют представители категории 'B'. Их уровень дохода позволяет им гасить кредиты, взятые на личные нужды. Вероятно, непогашенные в срок кредиты были взяты для ведения бизнеса. Затем идёт группа с доходом категории 'A' - самая богатая. Есть вероятность, что их долги так же связаны с состоянием бизнеса. И, наконец, самые недисциплинированные - заёмщики с доходом категории 'C' (50001 - 200000 рублей/мес.) Причину положения дел здесь предположить затруднительно. Возможно, часть кредитов составляет ипотека, оказавшаяся неподъёмной или кредиты, взятые для поддержания бизнеса ИП или самозанятыми. (Здесь стоило бы уточнить семейный статус и количество детей, а так же - тип дохода в каждом случае невозврата кредитов.) Прямой зависимости между размером дохода и погашением кредита в срок не наблюдается.

Средний доход должников и исправных плательщиков для всех целей кредитов не отличается, за исключением тех, кто взял кредит для проведения свадеб. Здесь средний доход должников на 9% меньше дохода дисциплинированных заёмщиков. Медианный доход у обеих групп по всем категориям целей практически одинаков. Вторая таблица свидетельствует о том, что доля просроченных кредитов меньше всего среди тех, кто брал кредит для операций с недвижимостью. Это ожидаемо, поскольку в данном случае сумма кредита больше, кроме того, сделка заключается, как правило, с передачей самой недвижимости банку в качестве залога. Учитывая тот факт, что чаще всего речь идёт о покупке жилья, дисциплина заёмщиков в этой категории неизбежно будет выше. Второй по качеству возврата кредита целью стали свадьбы. Возможно, часть таких кредитов гасится за счёт денежных подарков молодожёнам, весьма вероятна помощь родителей. Ещё реже возвращаются кредиты на получение образования. Можно предположить, что не все студенты в состоянии учиться и зарабатывать деньги для погашения кредита в нужном количестве. (Было бы полезно узнать, какая доля неплательщиков снимает жильё или выплачивает взносы по ипотечному кредиту.) Больше всего просроченных кредитов в категории "операции с автомобилем". Такая ситуация возможна, поскольку автомобиль мог быть приобретён из соображений "престижа", что довольно распространено в России. В этом случае могла быть сделана эмоциональная покупка, без учёта последствий. Не являясь предметом первой необходимости или средством заработка для многих, автомобиль может в итоге оказаться на последнем месте в приоритете платежей. В итоге, можно заключить, что возврат кредита в срок до некоторой степени зависит от целей кредита. Или, если быть более точным, от обстоятельств, в которых реализуется та или иная цель кредитования.

В целом, можно утверждать, что между количеством в семье детей или размером общего дохода, одной стороны, и возвратом кредита в срок - с другой, зависимости нет. Более того здесь есть своего рода аномалии, такие как отсутствие просроченных кредитов у семей с 5-ю детьми или наличие просрочки у наиболее зажиточных заёмщиков.
    Что касается семейного положения, такая зависимость прослеживается. Люди, состоящие или состоявшие в браке официально, погашают кредит более аккуратно, чем люди, состоящие в незарегистрированном партнёрстве неженатые/незамужние.
    Зависимость между целями кредитов и возвратом их в срок прослеживается, но скорее всего, влияют не столько цели сами по себе, сколько жизненные обстоятельства, сопровождающие каждую из этих целей кредита.