# Исследование надёжности заёмщиков банка в зависимости от семейного положения

## Общая информация об исследовании

Цель исследования: оценить влияние семейного положения и наличия детей у заемщика на своевременное погашение кредита.

Исходные данные: статистика платежеспособности клиентов, предоставленная банком

План работы: 
- загрузка данных
- изучение общей информации о данных
- обработка пропусков
- замена типов данных
- обработка дубликатов
- лемматизация
- категоризация данных
- исследование данных в соответствии с поставленными вопросами
- выводы
                


<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Общая-информация-об-исследовании" data-toc-modified-id="Общая-информация-об-исследовании-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Общая информация об исследовании</a></span></li><li><span><a href="#Загрузка-данных-и-изучение-общей-информации" data-toc-modified-id="Загрузка-данных-и-изучение-общей-информации-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Загрузка данных и изучение общей информации</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Обработка-пропусков" data-toc-modified-id="Обработка-пропусков-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Обработка пропусков</a></span><ul class="toc-item"><li><span><a href="#Анализ-пропущенных-данных" data-toc-modified-id="Анализ-пропущенных-данных-3.1.1"><span class="toc-item-num">3.1.1&nbsp;&nbsp;</span>Анализ пропущенных данных</a></span></li><li><span><a href="#Замена-пропущенных-данных" data-toc-modified-id="Замена-пропущенных-данных-3.1.2"><span class="toc-item-num">3.1.2&nbsp;&nbsp;</span>Замена пропущенных данных</a></span></li></ul></li><li><span><a href="#Замена-типа-данных" data-toc-modified-id="Замена-типа-данных-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Замена типа данных</a></span></li><li><span><a href="#Обработка-дубликатов" data-toc-modified-id="Обработка-дубликатов-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Обработка дубликатов</a></span></li><li><span><a href="#Лемматизация" data-toc-modified-id="Лемматизация-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Лемматизация</a></span></li><li><span><a href="#Категоризация-данных" data-toc-modified-id="Категоризация-данных-3.5"><span class="toc-item-num">3.5&nbsp;&nbsp;</span>Категоризация данных</a></span></li></ul></li><li><span><a href="#Ответы-на-вопросы" data-toc-modified-id="Ответы-на-вопросы-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Ответы на вопросы</a></span><ul class="toc-item"><li><span><a href="#Есть-ли-зависимость-между-наличием-детей-и-возвратом-кредита-в-срок?" data-toc-modified-id="Есть-ли-зависимость-между-наличием-детей-и-возвратом-кредита-в-срок?-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Есть ли зависимость между наличием детей и возвратом кредита в срок?</a></span></li><li><span><a href="#Есть-ли-зависимость-между-семейным-положением-и-возвратом-кредита-в-срок?" data-toc-modified-id="Есть-ли-зависимость-между-семейным-положением-и-возвратом-кредита-в-срок?-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Есть ли зависимость между семейным положением и возвратом кредита в срок?</a></span></li><li><span><a href="#Есть-ли-зависимость-между-уровнем-дохода-и-возвратом-кредита-в-срок?" data-toc-modified-id="Есть-ли-зависимость-между-уровнем-дохода-и-возвратом-кредита-в-срок?-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Есть ли зависимость между уровнем дохода и возвратом кредита в срок?</a></span></li><li><span><a href="#Как-разные-цели-кредита-влияют-на-его-возврат-в-срок?" data-toc-modified-id="Как-разные-цели-кредита-влияют-на-его-возврат-в-срок?-4.4"><span class="toc-item-num">4.4&nbsp;&nbsp;</span>Как разные цели кредита влияют на его возврат в срок?</a></span></li></ul></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

## Загрузка данных и изучение общей информации

Загружаем библиотеку pandas, читаем предоставленные в виде csv-файла данные, смотрим общую информацию.

In [1]:
import pandas as pd

Формируем датафрейм из предоставленных данных и смотрим общую информацию.

Так как проект готовится на локальной машине  - используем конструкцию try-except, чтобы срабатывало и на сервере Практикума 

In [2]:
# читаем таблицу data.csv
try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('data.csv')
    
# просмотрим информацию и превые строки датафрейма
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


В полях days_employed и total_income обнаружены пропуски данных. Количество пропущеных строк одинаковое и составляет 10% от общего количества. 

Видим: 
- отрицательные значения в столбце days_employed
- пропущенные данные в столбцах days_employed и total_income
- записи в разных регистрах в столбце education

Просмотрим данные о детях.

In [3]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Как видим, в данных попадаются нереальные значения -1 и 20, всего 123 строки, т.е. 0.57%. 
Обращает на себя внимание тот факт, что появляются только эти значения, других нет (например значений -3 или 38). 
Возможно это связано с какой-либо технической проблемой или ошибкой при наборе (например цифры 2 и 0 находятся на клавиатуре рядом и вполне возможно случайное нажатие на обе цифры одновременно). 

Теперь изучим данные в столбце dob_years(возраст), сгруппировав данные по годам

In [4]:
data.groupby('dob_years')['dob_years'].count()

dob_years
0     101
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

Как видим, в таблице имеется 101 запись (менее 0.5% от общего количества) с возрастом 0 лет.

**Вывод**

В столбце days_employed(общий трудовой стаж в днях) большое количество отрицательных значений.

Обнаружены пропуски данных в столбцах days_employed(общий трудовой стаж в днях) и total_income(ежемесячный доход). Обращает на себя внимание одинаковое количество пропусков (2174). Следует проверить, какая тут взаимосвязь.

В столбцах days_employed и total_income тип данных float64. Как известно, обработка чисел с плавающей точкой более ресурсоемко, чем обработка целых чисел. Для целей исследования достаточно типа int64. Потребуется преобразование.

Кроме этого обнаружено, что в столбце education имеются записи в разных регистрах. Потребуется преобразование к одному регистру при поиске дубликатов.

Имеются также нереальные данные о детях и возрасте заемщиков, по которым тоже следует провести корректировку.

## Предобработка данных

### Обработка пропусков

#### Анализ пропущенных данных

Первым делом удалим строки с некорректными данными в столбцах children и dob_years. 
Общее количество строк с этими данными около 1 %, удаление не повлияет на общую картину.

In [5]:
# удаляем строки с некорректным количеством детей и выводим результат
data = data.loc[(data.loc[:,'children']>=0)&(data.loc[:,'children']<=10)]
data['children'].value_counts()

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

In [6]:
# удаляем строки с указанным возрастом менее 18 лет
data = data.loc[data.loc[:,'dob_years']>=18]
# проверяем, что некорректные данные отфильтровались
data.groupby('dob_years')['dob_years'].count().head()

dob_years
19     14
20     51
21    110
22    183
23    252
Name: dob_years, dtype: int64

Еще раз проверяем данные на наличие пропусков:

In [7]:
data.isnull().sum()

children               0
days_employed       2152
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2152
purpose                0
dtype: int64

Теперь проверим строки с пропущенными данными days_employed и total_income, одновременно уточним в одних ли и тех же строках они находятся.

In [8]:
# ищем строки, где одновременно пропущены данные по стажу работы и доходам
data[(data['days_employed'].isnull()) & (data['total_income'].isnull())]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Количество строк точно сходится с количеством пропущенных данных в days_employed и total_income
Как видим, пустые значения одновременно появляются в столбцах о трудовом стаже и общем доходе, т.е. это пропуски взаимосвязанные по какой-то причине. 

Возможная причина в том,что при вводе информации о заемщике или при ее сохранении days_employed и total_income влияют друг на друга. 
Например при вводе нулевого трудового стажа(days_employed) не открывается поле для заполнения ежемесячного дохода(total_income) или наоборот.

#### Замена пропущенных данных

Т.к. взаимосвязь своевременности возврата кредита и трудового стажа нами не исследуется, то значения в этом столбце не повлияют на исследования. Исходя из этого столбец можно было бы полностью удалить. Однако, возможно он будет полезен при поиске дубликатов. 
Заменим пропущенные значения в days_employed на нулевые. 

In [9]:
data['days_employed'].fillna(0,inplace = True)
# проверяем наличие пропусков после замены
data['days_employed'].isna().sum()


0

In [10]:
# проверяем результат замены визуально
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Для принятия решения по замене пропусков в столбце total_income посчитаем среднее и медианное значение

In [11]:
total_income_mean = data['total_income'].mean()
total_income_median = data['total_income'].median()
diference = (total_income_mean - total_income_median)/total_income_median
print('Среднее значение     {:.2f}'.format(total_income_mean))
print('Медианное значение   {:.2f}'.format(total_income_median))
print('Среднее значение превышает медианное на {:.0%}'.format(diference))

Среднее значение     167493.77
Медианное значение   145020.80
Среднее значение превышает медианное на 15%


т.е. среди заемщиков есть небольшое количество со значительно большими доходами, чем у остальных. Следовательно, для замены пропущеных данных предпочтительно использовать медианное значение, т.к. это внесет меньше искажений.

In [12]:
# заменяем пропуски в total_income медианным значением и смотрим результат 
data['total_income'].fillna(total_income_median,inplace = True)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


**Вывод**

По результатам изучения пропусков пропущенные данные в столбце ежемесячного дохода заемщика заменены на медианные значения, а пропущенные данные о стаже работы - на нулевые. Отрицательные данные по стажу работы решено не удалять.

### Замена типа данных

Заменим тип данных в столбце days_employe и total_income на int64, т.к. точность float64 не является необходимой для нашего исследования.

In [13]:
# создаем словарь для передачи в аргумент метода .astype()
conv_dict = {'days_employed':'int64','total_income':'int64'}  
# меняем тип данных в столбцах, перечисленных в словаре 
data = data.astype(conv_dict)
# выводим результаты
data.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21302 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21302 non-null  int64 
 1   days_employed     21302 non-null  int64 
 2   dob_years         21302 non-null  int64 
 3   education         21302 non-null  object
 4   education_id      21302 non-null  int64 
 5   family_status     21302 non-null  object
 6   family_status_id  21302 non-null  int64 
 7   gender            21302 non-null  object
 8   income_type       21302 non-null  object
 9   debt              21302 non-null  int64 
 10  total_income      21302 non-null  int64 
 11  purpose           21302 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.1+ MB


**Вывод**

Числовые данные с плавающей точкой, необходимые для исследования, преобразованы в целые.

### Обработка дубликатов

Проверим наличие строк-дубликатов в наших данных:

In [14]:
data.duplicated().sum()

54

Однако, из-за наличия текстовых данных записаных в разных регистрах, мы можем пропустить некоторые дубликаты.

Посмотрим, какие уникальные значения попадаются в столбцах education, family_status и income_type со строковым типом данных

In [15]:
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [16]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [17]:
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

Как видим, до поиска дубликатов необходимо преобразовать данные в столбце education к одному регистру

In [18]:
data['education'] = data['education'].str.lower()
data['education'].unique() # проверяем результат

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Проверяем наличие строк-дубликатов в данных и методом .sum() определяем их количество

In [19]:
data.duplicated().sum()

71

Как видим, количество выявленных дубликатов увеличилось.

Полагая, что у разных заемщиков случайное совпадение по всем 12ти столбцам данных маловероятно, удаляем выявленные дубликаты.

In [20]:
data = data.drop_duplicates().reset_index(drop=True)

Проверяем наличие дубликатов после удаления.

In [21]:
data.duplicated().sum()

0

**Вывод**

Ввод текстовых данных в разных регистрах может маскировать имеющиеся дубликаты.
Дубликаты удалены.

### Лемматизация

Рассмотрим данные в столбце purpose(цель получения кредита)

In [22]:
purpose_unique = data['purpose'].unique()
purpose_unique

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Заметно, что по сути целей не так уж и много, но из-за использования разных формулировок анализ будет затруднен. 
Для унификации целей займемся лемматизацией данных в этом столбце. 
Для начала подсчитаем количество уникальных лемм 

In [23]:
# импортируем библиотеку pymystem3:
import pprint
from pymystem3 import Mystem
m = Mystem()

# подключим счетчик различных значений в списке:
from collections import Counter

# посчитаем, сколько каких слов встречается среди уникальных значений поля purpose
lemmas_list = m.lemmatize(' '.join(data['purpose'].unique()))

pprint.pprint(Counter(lemmas_list))
    

Counter({' ': 96,
         'покупка': 10,
         'недвижимость': 10,
         'автомобиль': 9,
         'образование': 9,
         'жилье': 7,
         'с': 5,
         'операция': 4,
         'на': 4,
         'свой': 4,
         'свадьба': 3,
         'строительство': 3,
         'получение': 3,
         'высокий': 3,
         'дополнительный': 2,
         'для': 2,
         'коммерческий': 2,
         'жилой': 2,
         'подержать': 2,
         'заниматься': 2,
         'сделка': 2,
         'приобретение': 1,
         'сыграть': 1,
         'проведение': 1,
         'семья': 1,
         'собственный': 1,
         'со': 1,
         'профильный': 1,
         'сдача': 1,
         'ремонт': 1,
         '\n': 1})


Ориентируясь на список уникальных значений в столбце purpose и результаты подсчета составим список, который содержит основные цели получения кредита. На основе этого списка вручную создадим дополнительный столбец main_purpose с данными, который заполним при помощи метода apply()  

In [24]:
# создаем список основных выявленных лемм
main_purpose_list = ['коммерческий',
                     'недвижимость','автомобиль','образование','жилье','свадьба','строительство','ремонт']

# функция для сокращения списка целей кредита
def main_purpose(purpose):
    lemmas = m.lemmatize(purpose)
    for word in lemmas:
        if word in main_purpose_list:
            return  word

# функция для разделения целей кредита по выбранным категориям
def purpose_category(main_purpose):
    if main_purpose == 'коммерческий':
        category = 'приобретение коммерческой недвижимости'
    elif main_purpose == 'недвижимость' or main_purpose == 'жилье':
        category = 'приобретение жилой недвижимости'
    elif main_purpose == 'автомобиль':
        category = 'приобретение автомобиля'
    elif main_purpose == 'образование':
        category = 'оплата образования'
    elif main_purpose == 'свадьба':
        category = 'расходы на свадьбу'
    elif main_purpose == 'строительство':
        category = 'строительство недвижимости'
    elif main_purpose == 'ремонт':
        category = 'ремонт недвижимости'    
    else:
        category = main_purpose
    return category

# создаем дополнительный столбец с основными целями кредита
data['main_purpose'] = data['purpose'].apply(main_purpose)

# уточняем и заменяем цели кредита, содавая названия категорий
data['main_purpose'] = data['main_purpose'].apply(purpose_category)

# смотрим результат
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,main_purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,приобретение жилой недвижимости
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,приобретение автомобиля
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,приобретение жилой недвижимости
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,оплата образования
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,расходы на свадьбу


**Вывод**

В результате лемматизации уточнен список категорий в отношении целей кредитования

### Категоризация данных

В соответствии с поставленными вопросами целесообразно разделить данные по следующим категориям - количество детей, семейное положение, ежемесячный доход и цель кредитования.

Рассмотрим данные по детям.

In [25]:
# оценим количество детей у обратившихся за кредитом
print(data['children'].value_counts())

0    14022
1     4792
2     2039
3      328
4       41
5        9
Name: children, dtype: int64


Логично выделить четыре категории кредиторов: без детей, один ребенок, два ребенка, многодетные (т.к. кредиторов с тремя и более детьми на один-два порядка меньше, чем в других категориях). 
Добавим в таблицу соответствующий столбец, назначим ему категориальный тип данных и определим порядок следования категорий для дальнейшего вывода.

In [26]:
def children_category(children):
    if children == 0:
        category = 'бездетный'
    elif children == 1:
        category = 'один ребенок'
    elif children == 2:
        category = 'два ребенка'
    else:
        category = 'многодетный'
    return category


data['children_category'] = data['children'].apply(children_category).astype('category')
data['children_category'].cat.set_categories(['бездетный', 'один ребенок', 'два ребенка', 'многодетный'], inplace=True)

Введем категории по семейному положению и просмотрим количество данных по каждой категории

In [27]:
data['family_status'] = data['family_status'].astype('category')
data['family_status'].cat.set_categories(['женат / замужем', 'гражданский брак',
                                          'Не женат / не замужем', 'в разводе','вдовец / вдова'], 
                                         inplace=True
                                        )
print(data['family_status'].value_counts())

женат / замужем          12213
гражданский брак          4113
Не женат / не замужем     2780
в разводе                 1179
вдовец / вдова             946
Name: family_status, dtype: int64


Разделим уровень дохода заемщиков на три категории. Т.к. такого официального разделения найти не удалось, а также учитывая, что в различных регионах такое деление может отличаться примем доход заемщика менее 40 т.р. за низкий, более 150 т.р. за высокий, а более 500 т.р за очень высокий. 

In [28]:
def income_category(income):
    if income < 40000:
        category = 'низкий доход'
    elif 40000 <= income < 150000:
        category = 'средний доход'
    elif 150000 <= income < 500000:
        category = 'высокий доход'
    else:
        category = 'оч высокий доход'
    return category

data['income_category'] = data['total_income'].apply(income_category).astype('category')
data['income_category'].cat.set_categories(['низкий доход','средний доход','высокий доход','оч высокий доход'],inplace=True)

Также назначим категориальный тип столбцу с определенными целями кредита. Порядок следования оставим по умолчанию (по алфавиту).

In [29]:
data['main_purpose'] = data['main_purpose'].astype('category')

**Вывод**

Подготовлены категории данных для ответа на поставленные перед исследованием вопросы.

## Ответы на вопросы

###  Есть ли зависимость между наличием детей и возвратом кредита в срок?

Для ответа на этот вопрос сгруппируем данные по количеству детей у заемщика и подсчитаем количество случаев невозврата кредитов в срок по каждой категории.

In [30]:
print(data.groupby('children_category')['debt'].sum())

children_category
бездетный       1058
один ребенок     441
два ребенка      194
многодетный       31
Name: debt, dtype: int64


Полученный результат не очень информативен, т.к. не связывает количество невозвратов с количеством выданых кредитов.
Сформируем таблицу data_children, в которой будут сгруппированы по тем же категориям и подсчитаны количество выданных кредитов (методом count()) и количество невозвратов (методом sum()). В третьем столбце этой таблицы рассчитаем процент несвоевременных возвратов и округлим результат до сотых

In [31]:
# создаем таблицу
data_children = data.groupby('children_category').agg({'debt':['count','sum']})
# рассчитываем процент не возврата и округляем результат до сотых
data_children['debt_percent'] = (data_children['debt','sum'] / data_children['debt','count']*100).round(decimals=2)
data_children 

Unnamed: 0_level_0,debt,debt,debt_percent
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
children_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
бездетный,14022,1058,7.55
один ребенок,4792,441,9.2
два ребенка,2039,194,9.51
многодетный,378,31,8.2


In [32]:
#Сортируем таблицу по процентам невозвратов
data_children.sort_values(by='debt_percent',ascending=False)

Unnamed: 0_level_0,debt,debt,debt_percent
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
children_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
два ребенка,2039,194,9.51
один ребенок,4792,441,9.2
многодетный,378,31,8.2
бездетный,14022,1058,7.55


**Вывод**

Как видим из полученной таблицы наиболее рискованая группа заемщиков - семьи с двумя детьми. Самые надежные в этом смысле заемщики - бездетные.

Обращает на себя внимание, что многодетные заемщики надежнее заемщиков с одним или двумя детьми.






###  Есть ли зависимость между семейным положением и возвратом кредита в срок?

Аналогично предыдущему случаю формируем таблицу, сгруппированную по семейному положению и рассчитываем процент случаев невозврата кредитов

In [33]:
# создаем таблицу
data_family = data.groupby('family_status').agg({'debt':['count','sum']})
# добавляем столбец и рассчитываем процент не возврата, округляем результат до сотых 
data_family['debt_percent'] = (data_family['debt','sum'] / data_family['debt','count']*100).round(decimals=2)
# сортируем результат по убыванию процента невозврата
data_family.sort_values(by='debt_percent',ascending=False)

Unnamed: 0_level_0,debt,debt,debt_percent
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2780,272,9.78
гражданский брак,4113,383,9.31
женат / замужем,12213,923,7.56
в разводе,1179,84,7.12
вдовец / вдова,946,62,6.55


**Вывод**

Как видим, наиболее рискованные заемщики - это неженатые и находящиеся в гражданском браке.
Вдовые заемщики напротив показывают более высокую надежность.



### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Для ответа на этот вопрос также формируем таблицу, сгруппированную по уровню дохода заемщика и рассчитываем процент случаев невозврата кредитов

In [34]:
# создаем таблицу
data_income = data.groupby('income_category').agg({'debt':['count','sum']})
# добавляем столбец и рассчитываем процент не возврата, округляем результат до сотых 
data_income['debt_percent'] = (data_income['debt','sum'] / data_income['debt','count']*100).round(decimals=2)
# сортируем результат по убыванию процента невозврата
data_income.sort_values(by='debt_percent',ascending=False)

Unnamed: 0_level_0,debt,debt,debt_percent
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
средний доход,12018,996,8.29
низкий доход,123,10,8.13
высокий доход,8868,704,7.94
оч высокий доход,222,14,6.31


**Вывод**

Наиболее рискованная группа по уровню дохода - заемщики со средним доходом. Заемщики с высоким доходом более надежны.

Обращает на себя тот факт, что заемщики с низким доходом, не смотря на меньшее их количество на два порядка, показывают близкую надежность к заемщикам со средним уровнем дохода. Возможно, следует обратить внимание на эту категорию клиентов.


### Как разные цели кредита влияют на его возврат в срок?

Выполним те же операции по категории назначение кредита.

In [35]:
# создаем таблицу
data_purpose = data.groupby('main_purpose').agg({'debt':['count','sum']})
# добавляем столбец и рассчитываем процент не возврата, округляем результат до сотых 
data_purpose['debt_percent'] = (data_purpose['debt','sum'] / data_purpose['debt','count']*100).round(decimals=2)
# сортируем результат по убыванию процента невозврата
data_purpose.sort_values(by='debt_percent',ascending=False)

Unnamed: 0_level_0,debt,debt,debt_percent
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
main_purpose,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
приобретение автомобиля,4258,397,9.32
оплата образования,3970,369,9.29
расходы на свадьбу,2299,181,7.87
строительство недвижимости,1862,143,7.68
приобретение коммерческой недвижимости,1298,98,7.55
приобретение жилой недвижимости,6942,501,7.22
ремонт недвижимости,602,35,5.81


**Вывод**

Из полученного результата следует, что наиболее рисковано предоставлять кредит на приобретение автомобиля и оплату образования.
Наименее рисковано кредитовать ремонт недвижимости.

**Сводная таблица**


Попробуем представить полученные результаты в виде сводной таблицы. Для этого назначим индексами количество детей и семейное положение, а колонками - цели кредитования.

Тогда, для количества невозвращеных кредитов получим следующу таблицу (для улучшения восприятия заменили возможные NaN методом fill_value=0):

In [36]:

data_total_debt = data.pivot_table(index=['children_category','family_status'],
                                    columns=['main_purpose',],
                                    values='debt',
                                    aggfunc='sum',
                                    fill_value=0
                                   )

data_total_debt

Unnamed: 0_level_0,main_purpose,оплата образования,приобретение автомобиля,приобретение жилой недвижимости,приобретение коммерческой недвижимости,расходы на свадьбу,ремонт недвижимости,строительство недвижимости
children_category,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
бездетный,женат / замужем,118,119,181,36,0,10,50
бездетный,гражданский брак,35,28,30,7,113,2,12
бездетный,Не женат / не замужем,51,64,61,13,0,5,16
бездетный,в разводе,13,13,15,4,0,5,5
бездетный,вдовец / вдова,12,18,14,4,0,1,3
один ребенок,женат / замужем,57,65,77,17,0,5,23
один ребенок,гражданский брак,18,17,22,4,51,1,5
один ребенок,Не женат / не замужем,10,13,19,2,0,1,6
один ребенок,в разводе,2,6,10,2,0,0,1
один ребенок,вдовец / вдова,3,0,3,1,0,0,0


Аналогично, для всех случаев обращения за кредитом получаем:

In [37]:
data_total_credit = data.pivot_table(index=['children_category','family_status'],
                                    columns=['main_purpose'],
                                    values='debt',
                                    aggfunc='count',
                                    fill_value=0
                                   )
data_total_credit

Unnamed: 0_level_0,main_purpose,оплата образования,приобретение автомобиля,приобретение жилой недвижимости,приобретение коммерческой недвижимости,расходы на свадьбу,ремонт недвижимости,строительство недвижимости
children_category,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
бездетный,женат / замужем,1573,1644,2737,499,0,235,749
бездетный,гражданский брак,269,281,416,78,1519,34,120
бездетный,Не женат / не замужем,453,516,831,147,0,74,228
бездетный,в разводе,158,192,270,53,0,34,70
бездетный,вдовец / вдова,174,199,292,67,0,25,85
один ребенок,женат / замужем,590,680,1128,203,0,94,273
один ребенок,гражданский брак,96,105,168,32,529,14,45
один ребенок,Не женат / не замужем,101,92,159,31,0,18,46
один ребенок,в разводе,61,68,116,32,0,4,30
один ребенок,вдовец / вдова,17,11,32,7,0,5,5


Результат, после перевода в проценты и округления выглядит следующим образом:

In [38]:
# 
data.pivot_table(index=['children_category','family_status'],
                                    columns=['main_purpose'],
                                    values='debt',
                                    aggfunc='mean',
                                    fill_value=0).style.format('{:.2%}')

Unnamed: 0_level_0,main_purpose,оплата образования,приобретение автомобиля,приобретение жилой недвижимости,приобретение коммерческой недвижимости,расходы на свадьбу,ремонт недвижимости,строительство недвижимости
children_category,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
бездетный,женат / замужем,7.50%,7.24%,6.61%,7.21%,0.00%,4.26%,6.68%
бездетный,гражданский брак,13.01%,9.96%,7.21%,8.97%,7.44%,5.88%,10.00%
бездетный,Не женат / не замужем,11.26%,12.40%,7.34%,8.84%,0.00%,6.76%,7.02%
бездетный,в разводе,8.23%,6.77%,5.56%,7.55%,0.00%,14.71%,7.14%
бездетный,вдовец / вдова,6.90%,9.05%,4.79%,5.97%,0.00%,4.00%,3.53%
один ребенок,женат / замужем,9.66%,9.56%,6.83%,8.37%,0.00%,5.32%,8.42%
один ребенок,гражданский брак,18.75%,16.19%,13.10%,12.50%,9.64%,7.14%,11.11%
один ребенок,Не женат / не замужем,9.90%,14.13%,11.95%,6.45%,0.00%,5.56%,13.04%
один ребенок,в разводе,3.28%,8.82%,8.62%,6.25%,0.00%,0.00%,3.33%
один ребенок,вдовец / вдова,17.65%,0.00%,9.38%,14.29%,0.00%,0.00%,0.00%


## Общий вывод

В результате исследования выявлено, что относительно семейного положения наиболее часто просрочку возврата кредита допускают не семейные или находящиеся в гражданском браке клиенты. Наиболее надежны овдовевшие.

Наличие двух детей или одного ребенка также отрицательно сказывается на своевременном возврате кредита. Бездетные и многодетные заемщики более надежны.
