# Исследование надежности заемщиков

Заказчик исследования — кредитный отдел банка. 

**Цель исследования** — нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Ход исследования**

Данные о заемщиках мы получим из файла 'data.csv'. 

О качестве данных ничего не известно. Поэтому перед проверкой зависимостей понадобится сделать обзор данных.

Мы проверим данные на ошибки и оценим их влияние на исследование. Затем, на этапе предобработки мы поищем возможность исправить самые критичные ошибки данных.

Таким образом, исследование пройдет в несколько этапов:
1. Обзор данных.
2. Предобработка данных.
3. Ответы на вопросы.

## Обзор данных
### Получение общей информации о данных

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv('data.csv')

Выведем первые десять строк и получим общую информацию о таблице:

In [3]:
display(df.head(10))
df.info()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице двенадцать столбцов. Тип данных в столбцах различный.

Описание столбцов согласно документации к данным:
* children — количество детей в семье;
* days_employed — общий трудовой стаж в днях;
* dob_years — возраст клиента в годах;
* education — уровень образования клиента;
* education_id — идентификатор уровня образования;
* family_status — семейное положение;
* family_status_id — идентификатор семейного положения;
* gender — пол клиента;
* income_type — тип занятости;
* debt — имел ли задолженность по возврату кредитов;
* total_income — ежемесячный доход; 
* purpose — цель получения кредита.

### Пропуски значений

Найдем пропущенные значения:

In [4]:
print('\nКоличество пропущенных значений в столбцах:')
print(df.isna().sum()) # определим, в каких столбцах пропущены значения

print('\nОписание значений в столбце days_employed по убыванию:')
print(df['days_employed'].value_counts(dropna=False).head(10)) # описание пропущенных значений в столбце days_emloyed
print('\nОписание значений в столбце total_income по убыванию:')
print(df['total_income'].value_counts(dropna=False).head(10)) # описание пропущенных значений в столбце total_income



Количество пропущенных значений в столбцах:
children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Описание значений в столбце days_employed по убыванию:
 NaN              2174
-8437.673028         1
-5135.928528         1
 354500.415854       1
-769.717438          1
-3963.590317         1
 337451.389609       1
 356425.151366       1
-3112.788664         1
 394214.527044       1
Name: days_employed, dtype: int64

Описание значений в столбце total_income по убыванию:
NaN              2174
253875.639453       1
124337.377229       1
70113.902786        1
116196.518662       1
157205.834562       1
114842.854099       1
282354.554215       1
235961.235873       1
131286.073745       1
Name: total_income, dtype: int64


Данные пропущены в столбцах days_employed и total_income: в них обнаружены значения NaN.

Определим долю пропущенных знчений в столбцах days_employed и total_income:

In [5]:
# доля пропущенных значений в столбцах
print('\nДоля пропущенных значений в столбце days_employed:', df['days_employed'].isna().sum() / len(df['days_employed']))
print('\nДоля пропущенных значений в столбце total_income:', df['total_income'].isna().sum() / len(df['total_income']))


Доля пропущенных значений в столбце days_employed: 0.10099883855981417

Доля пропущенных значений в столбце total_income: 0.10099883855981417


Доля пропущенных значений в обоих столбцах составляет 10%.

Возможные причины появления пропусков в данных:
- days_emloyed - абсолютно случайные пропуски, поскольку они не зависят от других переменных и не могут быть объяснены;
- total_income - случайные пропуски, поскольку неизвестны данные об общем трудовом стаже, то и данные о ежемесячном доходе также отсутствуют.

## Предобработка данных
### Заполнение пропусков

Не все пропущенные значения влияют на исследование. Так в days_emloyed пропуски не важны для нашей задачи.

Но пропуски в total_income могут помешать исследованию надежности заемщиков. 

Ежемесячный доход — это количественная переменная. Пропуски в таких переменных следует заполнить характерным значениям для данной выборки. Поскольку некоторые значения в столбце total_income могут сильно выделяются среди большинства, пропуски следует заполнить медианным значением по столбцу:

In [6]:
df['total_income'] = df['total_income'].fillna(df['total_income'].median())

Убедимся, что в таблице не осталось пропусков. Для этого ещё раз посчитаем долю пропущенны значений:

In [7]:
print('\nДоля пропущенных значений в столбце total_income:', df['total_income'].isna().sum() / len(df['total_income']))


Доля пропущенных значений в столбце total_income: 0.0


### Аномалии и исправления

Проанализируем данные на наличие артефактов — значений, которые не отражают действительность и появились по какой-то ошибке.

Проанализируем ошибки в числовых переменных:

In [8]:
display(df.describe())                                         

print('\nЧисло уникальных значений в столбце children:')
print(df['children'].value_counts(dropna=False).head(10))     

print('\nЧисло уникальных значений в столбце days_employed:')
print(df['days_employed'].value_counts(dropna=False).head(10)) 

print('\nЧисло уникальных значений в столбце dob_years:')
print(df['dob_years'].value_counts(dropna=False).head(10))     

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,165159.5
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,97866.07
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,107798.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,195543.6
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0



Число уникальных значений в столбце children:
 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Число уникальных значений в столбце days_employed:
 NaN              2174
-8437.673028         1
-5135.928528         1
 354500.415854       1
-769.717438          1
-3963.590317         1
 337451.389609       1
 356425.151366       1
-3112.788664         1
 394214.527044       1
Name: days_employed, dtype: int64

Число уникальных значений в столбце dob_years:
35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
Name: dob_years, dtype: int64


В данных встречаются следующие аномалии:
* В столбце children присутствуют аномальные значения с отрицательным количеством детей. В случае с количеством детей равным -1 и 20, вероятно, что произошла ошибка ручного ввода при внесении значения 1 и 2, соответтсвенно. 
* В столбце days_employed присутствуют аномальные значения с отрицательным знаком, либо с запредельным количеством дней трудового стажа (больше 1100 лет). Кроме того, значения столбца принимают нецелочисленный вид.
* В столбце dob_years значения принимают нецелочисленный вид.

Проанализируем ошибки в категориальных переменных:

In [9]:
print('\nЧисло уникальных значений в столбце education:')
print(df['education'].value_counts(dropna=False)) 

print('\nЧисло уникальных значений в столбце education_id:')
print(df['education_id'].value_counts(dropna=False))

print('\nЧисло уникальных значений в столбце family_status:')
print(df['family_status'].value_counts(dropna=False)) 

print('\nЧисло уникальных значений в столбце family_status_id:')
print(df['family_status_id'].value_counts(dropna=False)) 

print('\nЧисло уникальных значений в столбце gender:')
print(df['gender'].value_counts(dropna=False)) 

print('\nЧисло уникальных значений в столбце income_type:')
print(df['income_type'].value_counts(dropna=False)) 

print('\nЧисло уникальных значений в столбце debt:')
print(df['debt'].value_counts(dropna=False))

print('\nЧисло уникальных значений в столбце purpose:')
print(df['purpose'].value_counts(dropna=False).head(10)) 


Число уникальных значений в столбце education:
среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Число уникальных значений в столбце education_id:
1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64

Число уникальных значений в столбце family_status:
женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

Число уникальных значений в столбце family_status_id:
0    12380
1     4177
4     2813
3     1195
2      9

В данных встречаются следующие аномалии:

* В столбце education встречаются значения-дубликаты, записанные с использованием заглавных и строчных букв: 'среднее' / 'СРЕДНЕЕ', 'Высшее' / 'ВЫСШЕЕ' и т.д.).
* В столбце family_status встречаются значения-дубликаты, запbсанные как в верхнем, так и в нижнем регистре: 'женат / замужем', 'Не женат / не замужем'.
* В столбце gender встречаtтся аномальнjе значениt с полом клиента 'XNA'.
* В столбце purpose встречаются неявные дубликаты цели получения кредита: 'покупка жилья' / 'операции с жильем' / 'покупка жилой недвижимости', 'сыграть свадьбу' / 'на проведение свадьбы', 'высшее образование' / 'заняться высшим образованием' и т.д.

Возможные причины появления данных аномалий могут быть вызваны ошибками записи, ошибками ручнго ввода, либо изменением метаданных.

Обработаем значения в столбцах с аномалиями:

In [10]:
# обработаем аномалии в столбце children 
df['children'] = df['children'].abs()           # заменим ошибку ручного ввода c -1 на 1
df['children'] = df['children'].replace(20,2)   # заменим ошибку ручного ввода c 20 на 2

# обработаем аномалии в столбце days_employed 
df['days_employed'] = df['days_employed'].abs() # заменим отрицательные значения в столбце на абсолютные
#print(df['days_employed'].value_counts(dropna=False))

# обработку аномалии в столбце dob_years на данном этапе производить не будем
# обработаем аномалии в столбце gender
df.loc[df['gender'] == 'XNA', 'gender'] = 'unknown'  # заменим значения ' XNA'на 'unknown' 

Заполним пропуски в столбце days_employed медианными значениями по этому столбцу:

In [11]:
df['days_employed'] = df['days_employed'].fillna(df['days_employed'].median())
print('\nДоля пропущенных значений в столбце days_employed:', df['days_employed'].isna().sum() / len(df['days_employed']))


Доля пропущенных значений в столбце days_employed: 0.0


### Изменение типов данных

Заменим вещественный тип данных в столбце total_income на целочисленный:

In [12]:
df['total_income'] = df['total_income'].astype(int)

Также для экономии памяти заменим тип данных в столбцах таблицы с float64 на float32:

In [13]:
df['days_employed'] = df['days_employed'].astype('float32')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float32
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int32  
 11  purpose           21525 non-null  object 
dtypes: float32(1), int32(1), int64(5), object(5)
memory usage: 1.8+ MB


### Дубликаты

Посчитаем явные дубликаты в таблице:

In [14]:
df.duplicated().sum()

54

Обработаем неявные дубликаты и проверим получившийся датасет:

In [15]:
df['education'] = df['education'].str.lower()         # переведем названия уровеней образования клиента в нижний регистр
df['family_status'] = df['family_status'].str.lower() # переведем названия семейного статуса клиента в нижний регистр

print('\nЧисло уникальных значений в столбце education:')
print(df['education'].value_counts(dropna=False).head())
print('\nЧисло уникальных значений в столбце family_status:')
print(df['family_status'].value_counts(dropna=False).head())


Число уникальных значений в столбце education:
среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Число уникальных значений в столбце family_status:
женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64


В данных присутствовали явные строки-дубликаты, поэтому для их удаления был выбран метод drop_duplicates() с удалением старых индексов. 

Неявные дубликаты в столбцах education и family_status были устранены путем их приведения к единообразному виду при помощи метода lower(). 

Возможные причины возникновения дубликатов связаны с ошибками записи, ручного ввода или же изменением метаданных.

Теперь избавимся от явных дубликатов:

In [16]:
df.duplicated().sum()                                 # посчитаем количество явных дубликатов теперь
df = df.drop_duplicates().reset_index(drop=True)      # удалим явные дубликаты (с удалением старых индексов)
df.duplicated().sum()

0

### Формирование дополнительных датафреймов словарей, декомпозиция исходной таблицы

Создадим два новых датафрейма:
* education_id_dict - датафрейм, в котором каждому уникальному значению из education соответствует уникальное значение education_id;
* family_status_dict - датафрейм, в котором каждому уникальному значению из family_status соответствует уникальное значение family_status_id.

In [17]:
# создадим датафрейм, в котором каждому уникальному значению из education соответствует уникальное значение education_id;
education_id_dict = df[['education','education_id']]
education_id_dict = education_id_dict.drop_duplicates().reset_index(drop=True)
#display(education_id_dict)

# создадим датафрейм, в котором каждому уникальному значению из family_status соответствует уникальное значение family_status_id.
family_status_dict = df[['family_status','family_status_id']]
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)
display(family_status_dict)

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,не женат / не замужем,4


Удалим из таблицы столбцы education и family_status, оставив только их идентификаторы education_id и family_status_id:

In [18]:
df = df.drop(columns=['education', 'family_status']) 
display(df.head())

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.672852,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803711,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422852,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.74707,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.0625,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


### Категоризация дохода

Создадим в таблице новый столбец total_income_category со следующими категориями в зависимости от значений дохода клиента:  
* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

Для этого создадим функцию category_name, которая оценивает категорию клиента в зависимости от его ежемесячного дохода:

In [19]:
def category_name(total_income):
    if total_income <= 30000:
        return 'E'
    elif total_income <= 50000:
        return 'D'
    elif total_income <= 200000:
        return 'С'
    elif total_income <= 1000000:
        return 'B'
    else:
        return 'A'

Проверим работу функции category_name:

In [20]:
print('Категория -', category_name(25000))

Категория - E


При помощи функции category_name создадим в таблице столбец total_income_category и проверим первые пять строк таблицы:

In [21]:
df['total_income_category'] = df['total_income'].apply(category_name) 
display(df.head())

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.672852,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803711,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,С
2,0,5623.422852,33,1,0,M,сотрудник,0,145885,покупка жилья,С
3,3,4124.74707,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.0625,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,С


### Категоризация целей кредита

Создадим функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:
* 'операции с автомобилем',
* 'операции с недвижимостью',
* 'проведение свадьбы',
* 'получение образования'.

In [22]:
# Создадим функцию define_purpose_category, которая определяет цель получения кредита на основе заданных категорий
def define_purpose_category(purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'
    elif 'жи' in purpose:
        return 'операции с недвижимостью'
    elif 'свадьб' in purpose:
        return 'проведение свадьбы'       
    else:
        return 'получение образования'

При помощи функции define_purpose_category создадим в таблице столбец purpose_category и проверим первые десять строк таблицы:   

In [23]:
df['purpose_category'] = df['purpose'].apply(define_purpose_category) 
display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.672852,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803711,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,С,операции с автомобилем
2,0,5623.422852,33,1,0,M,сотрудник,0,145885,покупка жилья,С,операции с недвижимостью
3,3,4124.74707,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.0625,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,С,проведение свадьбы
5,0,926.185852,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879.202148,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152.779572,50,1,0,M,сотрудник,0,135823,образование,С,получение образования
8,2,6929.865234,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,С,проведение свадьбы
9,0,2188.756348,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,С,операции с недвижимостью


## Ответы на вопросы

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

Оценим зависимость между количеством детей и возвратом кредита в срок. 

Для этого создадим сводную таблицу, в которой сгруппируем данные по количеству детей, посчитаем число должников,  общее число заемщиков и долю числа должников к общему числу заемщиков в каждой группе:

In [24]:
df_pivot_children = df.pivot_table(index = 'children', values = 'debt', aggfunc = ['sum', 'count', 'mean'])
df_pivot_children.columns = ['Число должников', 'Число заемщиков', 'Доля числа должников']
display(df_pivot_children.sort_values(by='Доля числа должников', ascending=True).style.format({'Доля числа должников': '{:,.2%}'.format}))

Unnamed: 0_level_0,Число должников,Число заемщиков,Доля числа должников
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,0,9,0.00%
0,1063,14091,7.54%
3,27,330,8.18%
1,445,4855,9.17%
2,202,2128,9.49%
4,4,41,9.76%


#### Вывод:

Данные показывают отсутствие зависимости между количеством детей и возвратом кредита в срок.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

Оценим зависимость между семейным положением и возвратом кредита в срок.

Для этого создадим сводную таблицу, в которой сгруппируем данные по семейному положению, посчитаем число должников, общее число заемщиков и долю числа должников к общему числу заемщиков в каждой группе:

In [25]:
df_pivot_family_status = df.pivot_table(index = 'family_status_id', values = 'debt', aggfunc = ['sum', 'count', 'mean'])

Объединим таблицы family_status_dict и df_pivot_family_status по значению family_status_id:

In [26]:
df_pivot_family_status = family_status_dict.merge(df_pivot_family_status, on='family_status_id', how='left')
df_pivot_family_status.columns = ['Семейный статус','ID семейного статуса','Число должников', 'Число заемщиков', 'Доля числа должников']
display(df_pivot_family_status.sort_values(by='Доля числа должников', ascending=True).style.format({'Доля числа должников': '{:,.2%}'.format}))

Unnamed: 0,Семейный статус,ID семейного статуса,Число должников,Число заемщиков,Доля числа должников
2,вдовец / вдова,2,63,959,6.57%
3,в разводе,3,85,1195,7.11%
0,женат / замужем,0,931,12339,7.55%
1,гражданский брак,1,388,4151,9.35%
4,не женат / не замужем,4,274,2810,9.75%


#### Вывод:

Данные показывают следующую зависимость между семейным статусом и возвратом кредита в срок: одинокие люди (вдовцы/ вдовы и в разводе), ранее состоявшие в браке, возвращают кредит в срок чаще по сравнению с клиентами, состоящими в гражданском браке, либо не женатыми / не замужем.   

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Оценим зависимость между уровнем дохода и возвратом кредита в срок.

Для этого создадим сводную таблицу, в которой сгруппируем данные по уровню дохода на основании столбца total_income_category, и посчитаем число должников, общее число заемщиков и долю числа должников к общему числу заемщиков в каждой группе:

In [27]:
df_pivot_income = df.pivot_table(index = 'total_income_category', values = 'debt', aggfunc = ['sum', 'count', 'mean'])
df_pivot_income.columns = ['Число должников', 'Число заемщиков', 'Доля числа должников']
display(df_pivot_income.sort_values(by='Доля числа должников', ascending=True).style.format({'Доля числа должников': '{:,.2%}'.format}))

Unnamed: 0_level_0,Число должников,Число заемщиков,Доля числа должников
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,21,350,6.00%
B,356,5041,7.06%
A,2,25,8.00%
С,1360,16016,8.49%
E,2,22,9.09%


#### Вывод:

Данные показывают отсутствие зависимости между уровнем дохода и возвратом кредита в срок.

### Как разные цели кредита влияют на его возврат в срок?

Оценим, rак разные цели кредита влияют на его возврат в срок.

Для этого создадим сводную таблицу, в которой сгруппируем данные по цели кредита на основании столбца purpose_category, и посчитаем число должников, общее число заемщиков и долю числа должников к общему числу заемщиков в каждой группе:

In [28]:
df_pivot_purpose = df.pivot_table(index = 'purpose_category', values = 'debt', aggfunc = ['sum', 'count', 'mean'])
df_pivot_purpose.columns = ['Число должников', 'Число заемщиков', 'Доля числа должников']
display(df_pivot_purpose.sort_values(by='Доля числа должников', ascending=True).style.format({'Доля числа должников': '{:,.2%}'.format}))

Unnamed: 0_level_0,Число должников,Число заемщиков,Доля числа должников
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,782,10811,7.23%
проведение свадьбы,186,2324,8.00%
получение образования,370,4013,9.22%
операции с автомобилем,403,4306,9.36%


#### Вывод:

Данные показывают, что клиенты, берущие кредит с целью проведения операций с недвижимостью и на проведение свадьбы более ответсвенны с точки зрения возврата кредита в срок, по сравнению с заемщиками, берущими кредит с целью проведения операций с автомобилем и на получение образования.

## Общий вывод:

Для проверки наличия зависимости между семейным положением и количеством детей клиента на факт погашения кредита в срок мы использовали входные данные со статистикой платёжеспособности клиентов, которые получили от банка.

Данные были проверены на наличие ошибок и оценки их влияния на исследование. Далее была выполнена предобработка данных, которая в себя включала: поиск и заполнение пропущенных значений, поиск и обработку аномалий и исправлений,  поиск и обработку явных и неявных дубликатов. 

После этого мы провели исследование и получили ответы на интересующие вопросы: 
1. Есть ли зависимость между количеством детей и возвратом кредита в срок?

Данные показали отсутствие зависимости между количеством детей и возвратом кредита в срок.

2. Есть ли зависимость между семейным положением и возвратом кредита в срок?

Данные показали наличие зависимости между семейным положением и возвратом кредита в срок: одинокие заемщики, состоявшие в браке (вдовцы/ вдовы и в разводе), более ответственны по сравнению с теми, кто в браке не состоит (в гражданском браке, не женатыми / не замужем).

3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Данные показали отсутствие зависимости между уровнем дохода и возвратом кредита в срок.

4. Как разные цели кредита влияют на его возврат в срок?

Надежность заемщиков различается в зависимости от тех целей, на которые они берут кредит: возврат кредита в срок статистичски характерен для тех клиентов, которые совершают крупные покупки, такие как операции с недвижимостью и на проведение свадьбы, по сравнению с заемщиками, берущими кредит с целью проведения операций с автомобилем и на получение образования.

**Рекомендации заказчику** 

При построении модели кредитного скоринга надежность заемщиков следует оценивать на основании их семейного положения и целей кредита:
* Высокая надежность: семейное положение: "вдовец / вдова", "в разводе"; цель кредита: "операции с недвижимостью".
* Средняя надежность: семейное положение: "женат / замужем"; цель кредита: "проведение свадьбы".
* Низкая надежность:  семейное положение: "гражданский брак", "не женат / не замужем"; цель кредита: "получение образования", "операции с автомобилем".