# Исследование надёжности заёмщиков

## Описание проекта

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Инструкция по выполнению

**Шаг 1. Откройте таблицу и изучите общую информацию о данных**

**Шаг 2. Предобработка данных**

1. В двух столбцах есть пропущенные значения. Один из них — days_employed. Пропуски в этом столбце вы обработаете на следующем этапе. Найдите другой столбец и заполните пропущенные значения в нём медианным значением по столбцу:
* опишите, какие пропущенные значения вы обнаружили;
* проверьте, какую долю составляют пропущенные значения в каждом из столбцов с пропусками;
* приведите возможные причины появления пропусков в данных;
* объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

2. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Например, отрицательное количество дней трудового стажа в столбце days_employed. Для реальных данных это нормально. Обработайте значения в столбцах с аномалиями и опишите возможные причины появления таких данных. После обработки аномалий заполните пропуски в days_employed медианными значениями по этому столбцу.

3. Замените вещественный тип данных в столбце total_income на целочисленный, например, с помощью метода astype().

4. Если в данных присутствуют строки-дубликаты, удалите их. Также обработайте неявные дубликаты. Например, в столбце education есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к одному регистру. Проверьте остальные столбцы.

После удаления дубликатов сделайте следующее:
* поясните, как выбирали метод для поиска и удаления дубликатов в данных;
* приведите возможные причины появления дубликатов.

5. Создайте два новых датафрейма, в которых:
* каждому уникальному значению из education соответствует уникальное значение education_id — в первом;
* каждому уникальному значению из family_status соответствует уникальное значение family_status_id — во втором.

Удалите из исходного датафрейма столбцы education и family_status, оставив только их идентификаторы: education_id и family_status_id. Новые датафреймы — это те самые «словари» (не путайте с одноимённой структурой данных в Python), к которым вы сможете обращаться по идентификатору.

6. На основании диапазонов, указанных ниже, создайте столбец total_income_category с категориями:
* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A';
Например, кредитополучателю с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'.

7. Создайте функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:
* 'операции с автомобилем',
* 'операции с недвижимостью',
* 'проведение свадьбы',
* 'получение образования'.

Например, если в столбце purpose находится подстрока 'на покупку автомобиля', то в столбце purpose_category должна появиться строка 'операции с автомобилем'.
Вы можете использовать собственную функцию и метод apply(). Изучите данные в столбце purpose и определите, какие подстроки помогут вам правильно определить категорию.

**Шаг 3. Ответьте на вопросы**

Ответы на вопросы можно разместить в ячейках тетрадок Jupyter Notebook с типом markdown.
* Есть ли зависимость между количеством детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?
Ответы сопроводите интерпретацией — поясните, о чём именно говорит полученный вами результат.

**Шаг 4. Напишите общий вывод**

Оформление: Задание выполните в Jupyter Notebook. Программный код заполните в ячейках типа code, текстовые пояснения — в ячейках типа markdown. Примените форматирование и заголовки.

**Описание данных**

`children` — количество детей в семье

`days_employed` — общий трудовой стаж в днях

`dob_years` — возраст клиента в годах

`education` — уровень образования клиента

`education_id` — идентификатор уровня образования

`family_status` — семейное положение

`family_status_id` — идентификатор семейного положения

`gender` — пол клиента

`income_type` — тип занятости

`debt` — имел ли задолженность по возврату кредитов

`total_income` — ежемесячный доход

`purpose` — цель получения кредита

**На что обращают внимание при проверке проектов**

* Как вы описываете найденные в данных проблемы?
* Какие методы замены типов данных, обработки пропусков и дубликатов применяете?
* Категоризируете ли данные? Почему именно таким образом?
* Выводите ли финальные данные в сводных таблицах с помощью метода pivot_table()?
* Применяете ли конструкцию try...except... для обработки потенциальных ошибок?
* Соблюдаете ли структуру проекта и поддерживаете аккуратность кода?
* Какие выводы делаете?
* Оставляете ли комментарии к шагам?


# Предобработка данных

In [284]:
import pandas as pd 

data = pd.read_csv("./data.csv")
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В столбцах `days_employed` и `total_income` есть пропущенные значения, более того, высока вероятность взаимосвязи отсутствия данных в этих столбцах 
* во-первых, смысловая: причины, по которой не указана зарплата, могут быть теми же, что и для количества проработанных дней, также если зарплата зависит от количества проработанных дней, то отсутствие проработанных дней влияет на зарплату 
* во-вторых, количество пропущенных данных в обоих столбцах одинаково

Можно сказать точно, что механизм формирования пропусков в данном случае, как минимум, MAR (Missing At Random) 

Еще одна гипотеза: отсуствие данных о количестве проработанных дней и зарплате могут свидетельствовать об отсутствие у респондента работы, в таком случае механизм был бы MNAR (Missing Not At Random), но у нас нет атрибута, однозначно свидетельствующего о наличии работы, поэтому подтвердить или опровергнуть гипотезу не представляется возможным

Абсолютное количество и доля пропущенных значений (одинакова, для обоих столбцов):

In [30]:
print(f"Абсолютное количество: {data['days_employed'].isnull().sum()}")
print(f"Отношение: {data['days_employed'].isnull().sum() / data.shape[0]}")

Абсолютное количество: 2174
Отношение: 0.10099883855981417


Поскольку пропущенных значений по этим показателям около 10%, при их удалении теряется значительная доля выборки, тем более могут потеряться данные о категории людей, не имеющих стажа, если причина нулевых значений - отсутствие работы

Обычно, средняя зарплат сильно не репрезентативна, поскольку распредение зарплат далеко не соответствует нормальному закону, подтвердим на основе данных выборки:

In [261]:
total_income_mean = data['total_income'].mean()
high_income = 0
low_income = 0


def count_income_levels(income):
    global high_income, low_income
    if income > total_income_mean:
        high_income = high_income + 1
    elif income < total_income_mean:
        low_income = low_income + 1
    return 


data['total_income'].apply(count_income_levels)
print(f'Ниже среднего: {low_income}')
print(f'Выше среднего: {high_income}')

Ниже среднего: 13835
Выше среднего: 7690


Подтверждаем, что зарплата ниже среднего встречается намного чаще, чем выше среднего, то есть среднее значение нерепрезентативно, подтвердим то же для трудового стажа:

In [260]:
days_employed_mean = data['days_employed'].mean()
many_days = 0
not_many_days = 0


def count_time_employed(time):
    global many_days, not_many_days, days_employed_mean
    if time > days_employed_mean:
        many_days += 1
    elif time < days_employed_mean:
        not_many_days += 1
    return 


data['days_employed'].apply(count_time_employed)
print(f'Малый стаж: {many_days}')
print(f'Большой стаж: {not_many_days}')

Малый стаж: 3445
Большой стаж: 18080


В этой связи, заменим пропущенные значения обоих показателей медианным, чтобы минимально исказить данные выборки  

In [285]:
days_employed_median = data['days_employed'].median()
total_income_median = data['total_income'].median()
data['days_employed'] = data['days_employed'].fillna(days_employed_median)
data['total_income'] = data['total_income'].fillna(total_income_median) 
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [286]:
data.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


В столбце трудового стажа встречаются отцательные значения, возможно вызванные техническими ошибками, обработаем столбец, так как количество дней не может быть отрицательным, приведем все значения к неотрицательным

In [287]:
def abs_days(days):
    if days < 0:
        return abs(days)
    return days


# проверка правильности работы функции
# attempt = pd.Series([-432, 35, -3253.5, 4905, 39, -49.6])
# print(attempt.apply(abs_days).head(6)) 

data['days_employed'] = data['days_employed'].apply(abs_days)
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Заменим вещественный тип данных на целочисленный в столбце зарплат

In [288]:
data['total_income'] = data['total_income'].astype('int')
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


Избавимся от явных дубликатов

In [289]:
data = data.drop_duplicates()
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 21471 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int64  
 1   days_employed     21471 non-null  float64
 2   dob_years         21471 non-null  int64  
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      21471 non-null  int32  
 11  purpose           21471 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 2.0+ MB


In [114]:
print(data['education'].value_counts(), end='\n\n')
print(data['family_status'].value_counts())

education
среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: count, dtype: int64

family_status
женат / замужем          12344
гражданский брак          4163
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: count, dtype: int64


Наблюдаем наличие неявных дубликатов в столбце образование засчет разных регистров, а также в столбце семейный статус только один статус, начинающийся с большой буквы, приведем все записи к одному регистру

In [290]:
data['education'] = data['education'].str.lower()
data['family_status'] = data['family_status'].str.lower()
print(data['education'].value_counts(), end='\n\n')
print(data['family_status'].value_counts())

education
среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: count, dtype: int64

family_status
женат / замужем          12344
гражданский брак          4163
не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: count, dtype: int64


Так как все дубликаты зависели только от разной записи одних и тех же значений, что, наверняка, обусловлено человеческим фактором и/или способом обработки собираемой информации, приведя к строчному виду эти два столбца, по аналогии со строчным видом в других столбцах, мы избавились от дубликатов

In [106]:
print(data['purpose'].value_counts(), end='\n\n')

purpose
свадьба                                   793
на проведение свадьбы                     773
сыграть свадьбу                           769
операции с недвижимостью                  675
покупка коммерческой недвижимости         662
покупка жилья для сдачи                   652
операции с жильем                         652
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          625
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образовани

Наблюдаем так же дубликаты в столбце цели получения кредита, не связанные с заглавным или строчным написанием, поэтому обработаем другими методами чуть позже

Так как столбцы education и education_id дублируют друг друга и несут одну и ту же информацию, в целях оптимизации стоит сократить нашу таблицу, выведя словесное представление образования в отдельный словарь, та же ситуация с family_status и family_status_id, поступим аналогично

Создадим бекап таблицы до удаления из нее столбцов на случай возникновения ошибок

In [298]:
data_backup_first = data.copy(deep=True)

In [292]:
education_log = data[['education_id', 
                      'education']].drop_duplicates().reset_index(drop=True)
display(education_log.head(10))

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [267]:
family_status_log = data[['family_status_id', 
                          'family_status']].drop_duplicates()
family_status_log = family_status_log.reset_index(drop=True)
display(family_status_log.head(10))

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


Избавились от дубликатов и исправили индексы для удобства чтения словарей, далее оставим только идентификаторы в основной таблице

In [None]:
data = data.drop(columns=['family_status', 'education'])

Создадим столбец с присвоением статуса по уровням дохода с категориями:
* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

In [154]:
def level_income_assign(income):
    try:
        if income <= 30000:
            return 'E'
        elif income <= 50000:
            return 'D'
        elif income <= 200000: 
            return 'C'
        elif income < 1000000:
            return 'B'
        return 'A'
    except Exception:
        return


print(level_income_assign(25000))
print(level_income_assign(250000))

E
B


In [296]:
data['total_income_category'] = data['total_income'].apply(level_income_assign)
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


Создадим функцию, чтобы сократить цели получения кредитов до следующих категорий:
* 'операции с автомобилем',
* 'операции с недвижимостью',
* 'проведение свадьбы',
* 'получение образования'.

In [275]:
def purpose_category_assign(purpose):
    try:
        if 'автомобил' in purpose:
            return 'операции с автомобилем'
        elif 'свад' in purpose:
            return 'проведение свадьбы'
        elif 'образов' in purpose:
            return 'получение образования'
        elif 'недвижим' in purpose or 'жил' in purpose:
            return 'операции с недвижимостью'
        return 'не определено'
    except Exception:
        return 'не определено'
    

print(purpose_category_assign('на покупку автомобиля'))
print(purpose_category_assign('покупка жилья'))

операции с автомобилем
операции с недвижимостью


In [306]:
data_backup_second = data.copy(deep=True)

In [274]:
data['purpose_category'] = data['purpose'].apply(purpose_category_assign)
print(data['purpose_category'].value_counts())

purpose_category
операции с недвижимостью    6353
не определено               4461
операции с автомобилем      4308
получение образования       4014
проведение свадьбы          2335
Name: count, dtype: int64


Большое количество записей вошло в группу "не определено", необходимо проверить, с чем это связано

In [243]:
display(data[data['purpose_category'] == 'не определено']['purpose'])

0                  покупка жилья
2                  покупка жилья
5                  покупка жилья
6              операции с жильем
9        покупка жилья для семьи
                  ...           
21501                      жилье
21511    покупка жилья для сдачи
21513              покупка жилья
21516       покупка своего жилья
21520          операции с жильем
Name: purpose, Length: 4461, dtype: object

Видим, что не включены в операции с недвижимостью записи, где не фигурирует слово "недвижимость", но слова "жилье" и производные, исправим функцию с учетом этой особенности

In [304]:
data['purpose_category'] = data['purpose'].apply(purpose_category_assign)
print(data['purpose_category'].value_counts())

purpose_category
операции с недвижимостью    10814
операции с автомобилем       4308
получение образования        4014
проведение свадьбы           2335
Name: count, dtype: int64


# Ответьтим на следующие вопросы:
* Есть ли зависимость между количеством детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?


## Исследование зависимости между количеством детей и возвратом кредита в срок

Сгруппируем клиентов по количеству детей:

In [354]:
display(data['children'].value_counts())

children
0    14154
1     4809
2     2052
3      330
4       41
5        9
Name: count, dtype: int64

Наблюдаем аномалии в данных: у 76 респондентов ровно 20 детей, что выглядит подозрительно, с учетом что нет респондентов с 6-19 детьми, а у 47 респондетов отмечено в графе дети '-1', что никак не может являться количеством, так как число не натуральное

In [198]:
print(f"Отношение значений \"-1\" к общему количеству: {(47 / data.shape[0]):.2}")
print(f'''Отношение значений \"-1\" к количеству значений \"0\": {(47 / 14107):.2}''')
print(f"Отношение значений \"20\" к общему количеству: {(76 / data.shape[0]):.2}")

Отношение значений "-1" к общему количеству: 0.0022
Отношение значений "-1" к количеству значений "0": 0.0033
Отношение значений "20" к общему количеству: 0.0035


С учетом, что респондетов с двадцатью детьми меньше процента, можно перенебречь данными о них в вопросе зависимости наличия просроченных долгов от количества или наличия детей, поскольку они не внушают доверия

Так же можно поступить с респондентами, у которых в количесве детей отмечено "-1", однако такое значение можно прировнять к отсутствию детей, поскольку причиной наличия таких данных может вызвано человеческим фактором, в случае если не было конкретно оговорено, как именно нужно было заполнять поле "дети" 

Принято решение исправить все значения "-1" в графе дети на "0", пусть это не будет сильно влиять на статистику, но так будет корректнее

In [352]:
display(data.info())
data['children'][data['children'] == -1] = 0
data['children'][data['children'] == 20] = None
data = data.dropna()
data['children'] = data['children'].astype('int')
display(data.info())

<class 'pandas.core.frame.DataFrame'>
Index: 21395 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   children               21395 non-null  float64
 1   days_employed          21395 non-null  float64
 2   dob_years              21395 non-null  int64  
 3   education_id           21395 non-null  int64  
 4   family_status_id       21395 non-null  int64  
 5   gender                 21395 non-null  object 
 6   income_type            21395 non-null  object 
 7   debt                   21395 non-null  int64  
 8   total_income           21395 non-null  int32  
 9   purpose                21395 non-null  object 
 10  total_income_category  21395 non-null  object 
 11  purpose_category       21395 non-null  object 
dtypes: float64(2), int32(1), int64(4), object(5)
memory usage: 2.0+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 21395 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   children               21395 non-null  int32  
 1   days_employed          21395 non-null  float64
 2   dob_years              21395 non-null  int64  
 3   education_id           21395 non-null  int64  
 4   family_status_id       21395 non-null  int64  
 5   gender                 21395 non-null  object 
 6   income_type            21395 non-null  object 
 7   debt                   21395 non-null  int64  
 8   total_income           21395 non-null  int32  
 9   purpose                21395 non-null  object 
 10  total_income_category  21395 non-null  object 
 11  purpose_category       21395 non-null  object 
dtypes: float64(1), int32(2), int64(4), object(5)
memory usage: 2.0+ MB


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['children'][data['children'] == 20] = None


None

Сгруппируем данные о зависимости наличия задолженности от количества детей

In [353]:
debts_grouped = data.groupby('children').agg({'debt': ['count', 'sum']})
debts_grouped['relatives'] = debts_grouped['debt']['sum'] / debts_grouped['debt']['count']
print(debts_grouped)

           debt       relatives
          count   sum          
children                       
0         14154  1064  0.075173
1          4809   444  0.092327
2          2052   194  0.094542
3           330    27  0.081818
4            41     4  0.097561
5             9     0  0.000000


Процент, имеющих задолженности, для каждого количества детей чуть меньше 10%, меньше всего у людей, не имеющих детей (7.5%), больше всего задолженностей у людей, имеющих 4 ребенка (9.7%)

У людей, у которых 5 детей, по данным статистики, задолженностей нет, но нельзя говорить об их абсолютной платежеспособности, так как выборка этой категории слишком малочисленна, аналогично для показателей группы с 4 детьми

Для разрыва между клиентами, имеющими 2 ребенка, и клиентами, имеющими 3 ребенка, можно вывинуть следующую гипотезу: материальная поддержка многодетным семьям (то есть семьям с количествем детей от трех) действительно снимает нагрузку с семей по оплате кредитов

В остальном отклонения незначительны (мене 0.5%), поэтому я бы не говорил о значительной зависимости между возвратом кредита в срок и количестве детей, кроме как в случае многодетных семей, но отсутствие детей влияет на отсутствие задолженностей - у респондентов без детей задолженности встречаются реже

Включенные в группу клиентов без детей респонденты, у которых изначально в графе количества детей стояло "-1", не повлияли бы на первенство этой группы по погашению кредитов в срок

## Исследование зависимости между семейным положением и возвратом кредита в срок

In [360]:
debt_by_family_status = data.groupby('family_status_id').agg({'debt': ['count', 'sum']})
debt_by_family_status['metrica'] = debt_by_family_status['debt']['sum'] / debt_by_family_status['debt']['count']
debt_by_family_status['family_status'] = family_status_log['family_status']
display(debt_by_family_status.sort_values('metrica', ascending=False))

Unnamed: 0_level_0,debt,debt,metrica,family_status
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1,Unnamed: 4_level_1
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
4,2801,273,0.097465,не женат / не замужем
1,4151,385,0.092749,гражданский брак
0,12295,928,0.075478,женат / замужем
3,1193,84,0.070411,в разводе
2,955,63,0.065969,вдовец / вдова


Термин "гражданский брак" имеет несколько значений, в странах СНГ обычно значит длительное сожительство без регистрации брака в органах ЗАГСа, так как для респондентов был вариант ответа "женат / замужем", примем, что "гражданский брак" - отсутсвие зарегистрированного брака, но длительное сожительство

Таким образом наблюдаем, что до вступления в брак людям свойственно чаще не возвращать кредит в срок, чем после вступления в брак

Также, "гражданский брак" для клиентов хронологически идет до статуса "женат/замужем", а "в разводе" после "женат/замужем", получается, что в процессе изменения семейного статуса люди начинают чаще вовремя погашать кредиты

Видим обратную зависимость количества просроченных кредитов от повышения семейного статуса, развод и вдовство сильно уменьшают количество просроченных кредитов

## Исследование зависимости между уровнем дохода и возвратом кредита в срок

In [366]:
debt_by_income_level = data.pivot_table(index='total_income_category', values='debt', aggfunc=['count', 'sum'])
debt_by_income_level['metrica'] = debt_by_income_level['sum']['debt'] / debt_by_income_level['count']['debt'] 
debt_by_income_level.head()

Unnamed: 0_level_0,count,sum,metrica
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,25,2,0.08
B,5021,354,0.070504
C,15977,1354,0.084747
D,350,21,0.06
E,22,2,0.090909


Самая многочисленная группа уровня "С" с доходом от 50 до 200 т.р. имеет процент задолженных кредитов к общему количеству около 8.5%, группа "B" - от 200 до миллиона рублей в месяц - 7%, клиенты с уровнем дохода "D" - 6%, что еще меньше, но об обьективности показателей групп "A" и "E" сложно говорить, поскольку выборка крайне мала

In [371]:
print(data['debt'].corr(data['total_income']))

-0.011761290332307016



Результаты анализа напоминают нормальное распределение, а корреляция между доходом и наличием задолженностей близка к нулю, что говорит об отстутвии связи между наличием задолженностей и уровнем дохода, а у самой многочисленной группы больше всего процент задолженностей по закону больших чисел и стремится к среднему

## Исследование влияния целей кредита на возврат в срок

In [373]:
debt_by_purpose = data.pivot_table(index='purpose_category', values='debt', aggfunc=['count', 'sum'])
debt_by_purpose['metrica'] = debt_by_purpose['sum']['debt'] / debt_by_purpose['count']['debt']
debt_by_purpose.head()

Unnamed: 0_level_0,count,sum,metrica
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,4292,401,0.09343
операции с недвижимостью,10778,780,0.07237
получение образования,3999,369,0.092273
проведение свадьбы,2326,183,0.078676


Результаты показывают, что при операциях с недвижимостью наиболее стабильные погашения кредитов, а при операциях с автомобилем или получении образования реже погашения в срок, при этом цель "проведение свадьбы" имеет примерно тот же процент задолженностей что у группы людей с семейным статусом "женат/замужем", то есть решение вступить в брак уже ведет к уменьшению задолженностей

Также можно сделать вывод, что брать кредит на операции с недвижимостью безопаснее, чем в других целях, к тому же, вероятно, его берут чаще люди, состоящие или состоявшие в браке

Соответственно, цель, для которой берется кредит, сильно влияет на погашение в срок

# Заключение

Семейное положение и цель приобретения кредита значительно влияют на образование задолженностей у клиентов, в то время как уровень дохода влияния не имеет, а количество детей влияет меньше, чем в целом их наличие