# Исследование надежности заемщиков.

Описание проекта

Заказчик — кредитный отдел банка. Входные данные от банка — статистика о платёжеспособности клиентов.

Цель исследования — проверить, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Ход исследования:

### Шаг 1. Обзор данных

Составление первого представления о данных.

In [1]:
import pandas as pd #импортируем библиотеку pandas

In [2]:
data = pd.read_csv('/datasets/data.csv') #читаем файл csv и присваиваем ему переменную data
data.head(20) #смотрим первые 20 строк таблицы

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Получаем общее представление о таблице.

In [3]:
data.info() #открываем основную информацию о таблице

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, в таблице 12 столбцов. В них наблюдается три типа данных: object, int64 и float64.

Согласно документации к данным:

* `children` — количество детей в семье;
* `days_employed` — трудовой стаж в днях;
* `dob_years` — возраст клиента в годах;
* `education` — уровень образования клиента;
* `education_id` — идентификатор уровня образования;
* `family_status` — семейное положение;
* `family_status_id` — идентификатор семейного положения;
* `gender` — пол клиента;
* `income_type` — тип занятости;
* `debt` — наличие задолженности по возврату кредитов;
* `total_income` — ежемесячный доход;
* `purpose` — цель кредита.

Были выявлены следующие нарушения в значениях:
* В столбце `days_employed` имеются аномалии (минусовые значения). Стоит заменить вещественный тип данных на целочисленный.
* Также значения в `education` не приведены к единому виду ('Среднее', 'ВЫСШЕЕ'). 
* В столбце `purpose` можно заметить некатегоризированные данные - 'сыграть свадьбу', 'на проведение свадьбы'.
* Значения в `total_income` стоит заменить на целочисленные.
* Количество значений в столбцах `days_employed` и `total_income` различается. Значит, в данных есть пропущенные значения. С этого и начнем.

### Шаг 2.1 Заполнение пропусков

Мы имеем пропущенные значения NaN в столбцах `days_employed` и `total_income`. Посчитаем пропуски и сверимся с информацией о таблице.

In [4]:
data.isna().sum() #считаем количество пропусков в столбцах

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Данные о пропусках сходятся с данными о таблице. Так как мы не можем удалить около 10% строк, заменим пропущенные значения медианой по этим столбцам. Медианное значение будет наиболее справедливым вариантом, так как среднее значение может быть выше или ниже фактического. Возможно, пропуски появились из-за человеческого фактора — забыли внести данные. Благодаря выводу строк с пропущенными значениями в столбцах `days_employed` и `total_income` можно заметить, что информация отсутствует в обоих столбцах. Возможно, закралась какая-то техническая ошибка.

In [5]:
data[(data['days_employed'].isna()) & (data['total_income'].isna())] #выводим строки с пропущенными значениями

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Начнем со столбца `total_income`, так как там данные не требуют предобработки.

In [6]:
data['total_income'] = data['total_income'].fillna(data['total_income'].median()) #заполняем пропуски в столбце 'total_income' на медианное значение по столбцу
data['total_income'].isna().sum() #проверяем, заменились ли пропущенные значения

0

Видим, что пропущенных значений не осталось. Переходим к следующему столбцу.

### Шаг 2.2 Проверка данных на аномалии и исправления.

В столбе `days_employed` требуется предобработка самих значений из-за присутствия аномалий - минусовых значений. Нужно избавиться от них. Узнаем уникальные значения столбца `income_type` и попробуем найти связь между этим и минусовыми значениями, чтобы установить возможную причину появления аномалий.

In [7]:
data['income_type'].unique() #выводим уникальные значения

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [8]:
data[data['income_type']=='пенсионер'].head() #выводим первые 5 строчек для каждого значения

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,145017.937533,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости


In [9]:
data[data['income_type']=='сотрудник'].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование


In [10]:
data[data['income_type']=='компаньон'].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
10,2,-4171.483647,36,высшее,0,женат / замужем,0,M,компаньон,0,113943.49146,покупка недвижимости
14,0,-1844.956182,56,высшее,0,гражданский брак,1,F,компаньон,1,165127.911772,покупка жилой недвижимости
33,0,-1548.637544,48,среднее,1,женат / замужем,0,F,компаньон,0,157245.786233,покупка жилья


In [11]:
data[data['income_type']=='госслужащий'].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,145017.937533,образование
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,145017.937533,сделка с подержанным автомобилем
47,1,-2689.137274,33,высшее,0,гражданский брак,1,M,госслужащий,0,356277.909345,на проведение свадьбы
62,0,-7845.649233,48,Высшее,0,Не женат / не замужем,4,M,госслужащий,0,435388.195272,получение высшего образования
70,1,-2802.226671,28,ВЫСШЕЕ,0,женат / замужем,0,M,госслужащий,0,207561.466998,покупка коммерческой недвижимости


In [12]:
data[data['income_type']=='безработный'].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3133,1,337524.466835,31,среднее,1,женат / замужем,0,M,безработный,1,59956.991984,покупка жилья для сдачи
14798,0,395302.838654,45,Высшее,0,гражданский брак,1,F,безработный,0,202722.511368,ремонт жилью


In [13]:
data[data['income_type']=='предприниматель'].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
5936,0,,58,высшее,0,женат / замужем,0,M,предприниматель,0,145017.937533,покупка жилой недвижимости
18697,0,-520.848083,27,высшее,0,гражданский брак,1,F,предприниматель,0,499163.144947,на проведение свадьбы


In [14]:
data[data['income_type']=='студент'].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
9410,0,-578.751554,22,высшее,0,Не женат / не замужем,4,M,студент,0,98201.625314,строительство собственной недвижимости


In [15]:
data[data['income_type']=='в декрете'].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
20845,2,-3296.759962,39,СРЕДНЕЕ,1,женат / замужем,0,F,в декрете,1,53829.130729,автомобиль


Причиной подобной аномалии может являться техническая ошибка, т.к. это не похоже на человеческий фактор - вряд ли кто-то мог начать заполнять данные с минусового знака. Также можно заметить, что данные имеют минусовое значение у всех, кроме пенсионеров и безработных (и значения этих двух групп запредельно высокие, что тоже указывает на аномалию), соответственно, программа может неправильно высчитывать стаж именно в днях. Чтобы решить задачи этого проекта, не требуется изменять именно эти данные, поэтому достаточно будет убрать минусовые значения.

In [16]:
data['days_employed']=abs(data['days_employed']) #используем функцию abs для преобразования значений
data.head() #выводим первые 5 строк для проверки

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Теперь все значения плюсовые, можно заменять пропуски медианой.

In [17]:
data['days_employed'] = data['days_employed'].fillna(data['days_employed'].median()) #заполняем пропуски в столбце 'total_income' на медианное значение по столбцу
data['days_employed'].isna().sum() #проверяем, заменились ли пропущенные значения

0

Также были обнаружены следующие ошибки — в столбце `children` были найдены минусовые значения, которые мы исправили с помощью функции abs.

In [18]:
data['children']=abs(data['children']) #избавляемся от минусов

In [19]:
data['children'].value_counts()

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64

Видим 76 строчек с клиентами, у которых 20 детей, что составляет очень малую долю от общего числа клиентов. Вероятнее всего, при вводе данных 0 появился случайно (он рядом с 2 на клавиатуре), но у этих людей, вероятнее всего, все равно есть дети, поэтому на исследование эти аномалии не повлияют.

In [20]:
data['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Людей со нулевым значением в столбце `dob_years` около 0.4%, поэтому заменять эти значения не является необходимым действием.

In [21]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Присутствует одна строка со странным значением, но мы не можем заменить ее, т.к. ее появление мне непонятно и это всего одна строчка во всем датафрейме.

### Шаг 2.3. Изменение типов данных.

In [22]:
data['total_income'] = data['total_income'].astype('int') #преобразуем тип данных
data['days_employed'] = data['days_employed'].astype('int')
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int64 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int64 
 11  purpose           21525 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


Теперь эти столбцы содержат тип данных int64 и не имеют пропусков. Можно двигаться дальше.

### Шаг 2.4. Удаление дубликатов.

Займемся обработкой неявных дубликатов. Изменим регистр значений на нижний в столбце `education`.

In [23]:
data['education'] = data['education'].str.lower() #изменяем на нижний регистр, т.к. в этом проблема этих данных

Cтоит проверить наличие явных дубликатов.

In [24]:
data.duplicated().sum() #считаем количество явных дубликатов

71

71 строк-дубликатов. 0.3% от всей таблицы, поэтому можно их просто удалить.

In [25]:
data = data.drop_duplicates() #удаляем явные дубликаты
data.duplicated().sum() #проверяем наличие явных дубликатов

0

С явными и неявными дубликатами разобрались. Проверяем уникальные значения столбца 'education'.

In [26]:
data['education'].unique() #проверка

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Также можно заменить значения в столбце `family_status`, т.к. одно значение начинается с большой буквы

In [27]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [28]:
data['family_status'] = data['family_status'].str.lower()
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

Исходные неявные дубликаты были заменены. Вероятно, они заполнялись разными людьми, не имеющих четкой инструкции к заполнению, оттого возникли разные варианты написания.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Теперь можно соотнести столбец 'education' и 'education_id, 'family_status' и 'family_status_id', чтобы в дальнейшем обращаться только к идентификаторам.

In [29]:
education_log = data[['education', 'education_id']] #создаем датафрейм по двум столбцам
education_log.drop_duplicates().reset_index(drop=True) #удаляем дубликаты

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


Таким образом, становится ясно, что идентификатор 0 обозначает высшее образование, 1 — среднее, 2 — неоконченное высшее, 3 — начальное, 4 — ученая степень. Мы можем удалить столбец 'education' из таблицы и обращаться к этим значениям по идентификатору.

In [30]:
del data['education'] #удаляем столбец

Переходим к столбцам 'family_status' и 'family_status_id'.

In [31]:
family_log = data[['family_status', 'family_status_id']] #создаем датафрейм по двум столбцам
family_log.drop_duplicates().reset_index(drop=True) #удаляем дубликаты

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,не женат / не замужем,4


Приходим к выводу, что 0 — женат/замужем, 1 — гражданский брак, 2 — вдовец/вдова, 3 — в разводе, 4 — не женат/не замужем. Мы можем удалить столбец 'family_status' из таблицы и обращаться к этим значениям по идентификатору.

In [32]:
del data['family_status'] #удаляем столбец

### Шаг 2.6. Категоризация дохода.

Доходы можно категоризировать следующим образом:
* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

In [33]:
def income_cat(money): #создаем функцию для разбивки по категориям
    if money<=30000:
        return 'E'
    elif 30001<=money<=50000:
        return 'D'
    elif 50001<=money<=200000:
        return 'C'
    elif 200001<=money<=1000000:
        return 'B'
    elif money>=1000001:
        return 'A'
data['total_income_category']=data['total_income'].apply(income_cat) #создаем новый столбец в датафрейме

### Шаг 2.7. Категоризация целей кредита.

Выведем уникальные данные столбца `purpose` для того, чтобы категоризировать значения.

In [34]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Cформируем новый столбец `purpose_category`, в который войдут следующие категории:
* 'операции с автомобилем',
* 'операции с недвижимостью',
* 'проведение свадьбы',
* 'получение образования'.

In [35]:
def purpose_cat(purpose): #создаем функцию для категоризации
    if 'авто' in purpose:
        return 'операции с автомобилем'
    if 'жиль' in purpose or 'недвижимост' in purpose:
        return 'операции с недвижимостью'
    if 'свадьб' in purpose:
        return 'проведение свадьбы'
    if 'образовани' in purpose:
        return 'получение образования'
data['purpose_category']=data['purpose'].apply(purpose_cat) #создаем новый столбец в датафрейме

### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

Для начала посчитаем кол-во клиентов без детей и с детьми.

In [36]:
data['children'].loc[data['children']==0].count() #количество клиентов без детей

14091

In [37]:
data['children'].loc[data['children']!=0].count() #количетсво клиентов с детьми

7363

Таким образом, мы видим, что кол-во клиентов без детей почти в 2 раза превышает кол-во клиентов с детьми. Значит, нужно искать соотношение в процентах, т.к. абсолютные значения не гарантируют нам верный вывод.

In [38]:
#делаем сводную таблицу для того, чтобы увидеть кол-во должников
data_pivot_children = data.pivot_table(index='children', columns='debt', values='total_income', aggfunc='count') 
data_pivot_children 

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,13028.0,1063.0
1,4410.0,445.0
2,1858.0,194.0
3,303.0,27.0
4,37.0,4.0
5,9.0,
20,68.0,8.0


In [39]:
data_pivot_children['total'] = data['children'].value_counts() #создаем столбец тотал
data_pivot_children['rate'] = data_pivot_children[1]/data_pivot_children['total'] #создаем столбец рейт, в кот-м узнаем соотношение должников ко всем клиентам
data_pivot_children['rate']*100 #умножаем на 100, чтобы получились проценты

children
0      7.543822
1      9.165808
2      9.454191
3      8.181818
4      9.756098
5           NaN
20    10.526316
Name: rate, dtype: float64

##### Вывод 1:У должников без детей самый маленький процент, соответственно, у них меньше всего долгов. Можно сделать вывод, что отсутствие детей предполагает более вероятное возвращение кредита в срок.

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

Идентификаторы семейного статуса: 0 — женат/замужем, 1 — гражданский брак, 2 — вдовец/вдова, 3 — в разводе, 4 — не женат/не замужем

In [40]:
data_pivot_family = data.pivot_table(index='family_status_id', columns='debt', values='total_income', aggfunc='count')
data_pivot_family 

debt,0,1
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,11408,931
1,3763,388
2,896,63
3,1110,85
4,2536,274


In [41]:
data_pivot_family['total'] = data['family_status_id'].value_counts()
data_pivot_family['rate'] = data_pivot_family[1]/data_pivot_family['total']
data_pivot_family['rate']*100

family_status_id
0    7.545182
1    9.347145
2    6.569343
3    7.112971
4    9.750890
Name: rate, dtype: float64

##### Вывод 2:Идентификатор 2 имеет самый меньший процент, это означает, что категория вдовцы/вдовы имеет меньше всего долгов, в то время как неженатые/незамужние и люди в гражданском браке имеют больше всего долгов. Можно сделать вывод, что наиболее надежными клиентами являются вдовцы/вдовы, женатые/замужние и люди в разводе.

##### Вопрос 3:Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Категории дохода:
* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

In [42]:
data_pivot_income = data.pivot_table(index='total_income_category', columns='debt', values='total_income', aggfunc='count')
data_pivot_income 

debt,0,1
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,23,2
B,4685,356
C,14656,1360
D,329,21
E,20,2


In [43]:
data_pivot_income['total'] = data['total_income_category'].value_counts()
data_pivot_income['rate'] = data_pivot_income[1]/data_pivot_income['total']
data_pivot_income['rate']*100

total_income_category
A    8.000000
B    7.062091
C    8.491508
D    6.000000
E    9.090909
Name: rate, dtype: float64

##### Вывод 3:Клиенты с доходами от 30000 до 50000 имеют меньше всего задолженностей, в то время как группа с доходностью меньше 30000 - больше всего. Также и клиенты с доходами больше миллиона и от 50000 до 200000 имеют высокий процент задолженностей. Возможно, это связано с тем, что людей в этих категориях около 20, поэтому даже 2 человека дают высокий процент.

##### Вопрос 4:Как разные цели кредита влияют на его возврат в срок?

In [44]:
data_pivot_purpose = data.pivot_table(index='purpose_category', columns='debt', values='total_income', aggfunc='count')
data_pivot_purpose 

debt,0,1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
операции с автомобилем,3903,403
операции с недвижимостью,10029,782
получение образования,3643,370
проведение свадьбы,2138,186


In [45]:
data_pivot_purpose['total'] = data['purpose_category'].value_counts()
data_pivot_purpose['rate'] = data_pivot_purpose[1]/data_pivot_purpose['total']
data_pivot_purpose['rate']*100

purpose_category
операции с автомобилем      9.359034
операции с недвижимостью    7.233373
получение образования       9.220035
проведение свадьбы          8.003442
Name: rate, dtype: float64

##### Вывод 4: Больше всего долгов имеют люди, взявшие кредит для операций с автомобилем и получением образования, меньше всего - для операций с недвижимостью. 

## Общий вывод:

Таким образом, среди надежных клиентов можно выделить следующие группы:
* бездетные (7.5% должников)
* вдовцы/вдовы, женатые/замужние, люди в разводе (6.5-7.5%)
* доходность от 30000 до 50000 (6%)
* кредит для операций с недвижимостью (7.2%)

Следующие группы людей показали себя как ненадежные клиенты:
* с детьми (8-10.5%)
* неженатые/незамужние (9.7%)
* доходы меньше 30000/доходы больше 1000000/доходы от 50000 до 200000 (8-9%)
* кредит для операций с автомобилем/получения образования (9.3%)