## Исследование надёжности заёмщиков

Цель исследования выявить, какие факторы влияют на возврат кредита в срок.


1. [Изучение общей информации.](#step_1)
2. [Предобработка данных.](#step_2)
    * [Обработка пропусков](#step_2_1)
    * [Замена типа данных](#step_2_2)
    * [Обработка дубликатов](#step_2_3)
    * [Лемматизация](#step_2_4)
    * [Категоризация данных](#step_2_5)
 
3. [Ответы на поставленные вопросы.](#step_3)
    * [Есть ли зависимость между наличием детей и возвратом кредита в срок?](#step_3_1)
    * [Есть ли зависимость между семейным положением и возвратом кредита в срок?](#step_3_2)
    * [Есть ли зависимость между уровнем дохода и возвратом кредита в срок?](#step_3_3)
    * [Как разные цели кредита влияют на его возврат в срок?](#step_3_4)
4. [Дополнение.](#step_4)
5. [Общий вывод.](#step_5)

<a id="step_1"></a>
### Шаг 1. Изучение общей информации. 

Импортируем библиотеки и изучим предоставленные данные.

In [1]:
import pandas as pd
from IPython.display import display
from pymystem3 import Mystem
m = Mystem()

In [2]:
total = df['children'].count()
df.info()
display(df)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


Рассмотрим таблицу подробнее.

В таблице 12 столбцов с типами данных float, int и object.

Подробно разберём, какие столбцы в df и какую информацию они содержат:

1. children — количество детей в семье;
2. days_employed — общий трудовой стаж в днях;
3. dob_years — возраст клиента в годах;
4. education — уровень образования клиента;
5. education_id — идентификатор уровня образования;
6. family_status — семейное положение;
7. family_status_id — идентификатор семейного положения;
8. gender — пол клиента;
9. income_type — тип занятости;
10. debt — имел ли задолженность по возврату кредитов;
11. total_income — ежемесячный доход;
12. purpose — цель получения кредита.

- Количество значений в столбцах отличается. Это говорит о пропущенных значениях.
- В столбце `days_employed` числа представлены в не подходящем формате для восприятия.
- В столбце `education` видно, что есть дублирование, одно и то же слово написано в разных регистрах.
 

### Вывод

Каждая строка таблицы содержит информацию о конкретном заёмщике, от информации о семье до рабочего стажа и уровня образования.

Для дальнейшего анализа, чтобы выводы были корректны, необходимо подготовить данные.

Проблемы, которые нужно решить - это пропуски, дубликаты, формат некоторых столбцов, группировки цели заема.

<a id="step_2"></a>
### Шаг 2. Предобработка данных.

<a id="step_2_1"></a>
### Обработка пропусков

Перед тем как работать с пропусками заменим отрицательные значения в столбце `days_employed` на положительные.

In [3]:
df['days_employed'] = df['days_employed'].abs()
display(df)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


Теперь все значения стали положительные. Ещё можно заметить очень большие числа в этом столбце, это говорит о том, что они представлены в часах, сразу переведем их в дни. Также сразу переведем `total_income` в доход за месяц.


In [4]:
df['days_employed'] = df['days_employed'] / 24
display(df)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,351.569709,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,167.700156,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,234.309275,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,171.864467,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,188.721528,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,14330.725172,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,88.056120,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,129.686738,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


И теперь можем приступить к заполнению пропусков.

Сделаем это с помощью медианы и заполним её пропуски в таблице для столбцов `days_employed` и `total_income`, если использовать метод удаления пропусков, то тогда мы потеряем около 10% данных, поэтому используем медиану.

In [5]:
days_employed_median = df['days_employed'].median()
total_income_median = df['total_income'].median()
print(days_employed_median)
print(total_income_median)

91.42585695327897
145017.93753253992


In [6]:
df['days_employed'] = df['days_employed'].fillna(days_employed_median)
df['total_income'] = df['total_income'].fillna(total_income_median)
df.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Вывод

Как видно, строк с пропущенными значениями не осталось. Все пустые значения были заменены медианой по каждому столбцу. Пропущенные значения могут быть обусловлены либо не предоставления данных в срок, либо люди умышленно их не сообщают.

<a id="step_2_2"></a>
### Замена типа данных

Теперь нужно столбцы `days_employed` и `total_income` привести к  типу данных int, воспользуемся методом "as_type" для изменения типа данных. 

In [7]:
df['days_employed'] = df['days_employed'].astype('int')
df['total_income'] = df['total_income'].astype('int')
display(df)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,351,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,167,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,234,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,171,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,188,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21521,0,14330,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,88,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21523,3,129,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


### Вывод

Теперь данные в этих столбцах имеют призентабельный вид и ими будет удобнее "крутить" в дальнейшем.

<a id="step_2_3"></a>
### Обработка дубликатов

Проверим общее число дубликатов в таблице.

In [8]:
df.duplicated().sum()

54

Как видно их 54, вероятно они появились из-за какого-то сбоя, так как строчки полностью совпадают. Нужно избавиться от них и обновить индекс.

In [9]:
df = df.drop_duplicates().reset_index(drop = True)
df.duplicated().sum()

0

От полных дубликатов избавились.Проверим столбец 'education' на наличие дубликатов и посмотрим сколько их.

In [10]:
df['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Как видно есть дубликаты и их много, нужно избавиться от них.
Переведем слова к единому регистру.

In [11]:
df['education'] = df['education'].str.lower()
df['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

После измененения регистра ещё раз проверим на дубликаты.

In [12]:
df.duplicated().sum()

17

Из-за изменения регистра появились вновь дубликаты, избавимся от них.

In [13]:
df = df.drop_duplicates().reset_index(drop = True)
df.duplicated().sum()

0

### Вывод

Вероятно такие дубликаты были обусловлены тем, что не было единой формы для их заполнения, и люди заполняли их сами.

<a id="step_2_4"></a>
### Лемматизация

С помощью лемматизации приведём слова в столбце `purpose` к инфинитиву, будем использовать  pymystem3. После нужно данные из массива переделать в строку и убрать лишние символы в конце строки.

Всё это необходимо для дальнейшей категоризации. 

In [15]:
lemma = df['purpose'].apply(m.lemmatize)
lemma = lemma.str.join(' ').str.rstrip('\n')
df['purpose_new'] = lemma
display(df)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_new
0,1,351,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,покупка жилье
1,1,167,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,приобретение автомобиль
2,0,234,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,покупка жилье
3,3,171,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,дополнительный образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,сыграть свадьба
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,188,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,операция с жилье
21450,0,14330,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,сделка с автомобиль
21451,1,88,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,недвижимость
21452,3,129,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,на покупка свой автомобиль


### Вывод

Проведя лемматизацию, мы получили слова в одинаковой форме, чтобы на их основе было возможно провести категоризацию кредитов.

<a id="step_2_5"></a>
### Категоризация данных

Категоризируем такие данные как: цель кредита, наличие детей, тип занятости и возраст.

 - Посчитаем общее количества упоминания на что берут кредиты и после этого изучим, на какие нужды люди берут их.

In [16]:
df.groupby('purpose_new')['purpose_new'].count().sort_values(ascending = False)

purpose_new
автомобиль                                     972
свадьба                                        791
на   проведение   свадьба                      768
сыграть   свадьба                              765
операция   с   недвижимость                    675
покупка   коммерческий   недвижимость          661
операция   с   жилье                           652
покупка   жилье   для   сдача                  651
операция   с   коммерческий   недвижимость     650
жилье                                          646
покупка   жилье                                646
покупка   жилье   для   семья                  638
строительство   собственный   недвижимость     635
недвижимость                                   633
операция   со   свой   недвижимость            627
строительство   жилой   недвижимость           624
покупка   недвижимость                         621
покупка   свой   жилье                         620
строительство   недвижимость                   619
ремонт   жилье     

Можно выделить несколько целей, на что берут кредиты: 
- автомобиль; 
- свадьба;
- покупка недвижимости, 
- ремонт;
- строительство;
- образование.

Напишем функцию для расспределения цели кредита к определенной группе(категории).

In [17]:
def purpose_category(row):
    
    purpose = row['purpose_new']
    
    if 'авто' in purpose:
        return 'автомобиль'
    if 'свадьба' in purpose:
        return 'свадьба'
    if 'ремонт' in purpose:
        return 'ремонт'
    if 'образование' in purpose:
        return 'образование'
    if 'строительство' in purpose:
        return 'строительство'
    if 'недвижимость' or 'жилье' in purpose:
        return 'недвижимость'
    else:
        return 'прочее'

df['purpose_new1'] = df.apply(purpose_category, axis=1)
df.groupby('purpose_new1')['purpose_new1'].count().sort_values(ascending = False)

purpose_new1
недвижимость     8326
автомобиль       4306
образование      4013
свадьба          2324
строительство    1878
ремонт            607
Name: purpose_new1, dtype: int64

 - Так же сделаем и с наличием детей, у кого они есть и у кого их нет, с помощью функции.

In [18]:
def children(row):
    
    children = row['children']
    
    if children == 0:
        return 'нет детей'
    else: 
        return 'есть дети'
    
df['children_status'] = df.apply(children, axis=1)
df.groupby('children_status')['children_status'].count().sort_values(ascending = False)

children_status
нет детей    14091
есть дети     7363
Name: children_status, dtype: int64

 - Категоризируем столбец `income_type` на "трудоустроен" и "нет работы".

In [19]:
df['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [20]:
def work_status(row):
    
    status = row['income_type']
    
    if status == 'сотрудник':
        return 'трудоустроен'
    if status == 'пенсионер':
        return 'нет работы'
    if status == 'компаньон':
        return 'трудоустроен'
    if status == 'госслужащий':
        return 'трудоустроен'
    if status == 'безработный':
        return 'нет работы'
    if status == 'предприниматель':
        return 'трудоустроен'
    if status == 'студент':
        return 'нет работы'
    if status == 'в декрете':
        return 'трудоустроен'

df['work_status'] = df.apply(work_status, axis=1)
df.groupby('work_status')['work_status'].count().sort_values(ascending = False)

work_status
трудоустроен    17622
нет работы       3832
Name: work_status, dtype: int64

Мы видим, что людей трудоустроенных в 5 раз больше, чем тех, у кого нет работы.

 - Разделим людей по возрастным группам: молодой, зрелый и пенсионер.

In [21]:
def age(row):
    
    age = row['dob_years']
    
    if age <= 18:
        return 'ребенок'
    if 18 < age <=35:
        return 'молодой'
    if 35 < age <= 65:
        return 'взрослый'
    if age > 65:
        return 'пенсионер'
    
df['age_status'] = df.apply(age, axis=1)
df.groupby('age_status')['age_status'].count().sort_values(ascending = False)

age_status
взрослый     14068
молодой       6583
пенсионер      702
ребенок        101
Name: age_status, dtype: int64

Хм, странно, что тут есть дети. Но как видно в большинстве преобладают люди от 35 до 65.

 - Сгруппируем людей по уровню дохода. Чтобы понять как примерно группировать, найдем минимальное и максимальное значение в столбец с зарплатой.

In [22]:
print(df['total_income'].max())
print(df['total_income'].min())

2265604
20667


Как видно очень большая разница. Возьмем условную группировку дохода:
- от 0 до 20000 тысяч рублей - низкий доход;
- до 40000 тысяч рублей - средний доход;
- от 40000 до 100000 тысяч рублей - высокий доход;
- свыше 100000 тысяч рублей - выше среднего.

In [23]:
def salary(row):
    salary = row['total_income']
    
    if 0 <= salary <=30000:
        return 'низкий доход'
    if 30000 < salary <= 50000:
        return 'средний доход'
    if 50000 < salary <= 100000:
        return 'высокий доход'
    if salary > 100000:
        return 'очень высокий доход'
    
df['salary_status'] = df.apply(salary, axis=1)
df.groupby('salary_status')['salary_status'].count().sort_values(ascending = False)

salary_status
очень высокий доход    16991
высокий доход           4091
средний доход            350
низкий доход              22
Name: salary_status, dtype: int64

### Вывод

Изучив данные, мы виделили следующие категории: 
- основные цели кредита, на которые люди берут его;
- наличие или отсутствие детей;
- тип занятости;
- возраст.

Теперь мы можем ответить на поставленные вопросы.

<a id="step_3"></a>
### Шаг 3. Ответы на поставленные вопросы.

<a id="step_3_1"></a>
#### - Есть ли зависимость между наличием детей и возвратом кредита в срок?

Посмотрим в сводной таблице как влияют дети на возврат кредитов.

In [24]:
deti_pivot = df.pivot_table(index='children_status', columns='debt', values='gender', aggfunc='count', margins=True)
deti_pivot

debt,0,1,All
children_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
есть дети,6685,678,7363
нет детей,13028,1063,14091
All,19713,1741,21454


#### Вывод

Как видно по сводной таблице, дети негативно влияют на возврат кредита. Чаще возвращают кредит люди без детей, это может быть обусловлено расходами на содержание детей.

<a id="step_3_2"></a>
#### - Есть ли зависимость между семейным положением и возвратом кредита в срок?

Напишем сводную таблицу по семейному положению и возврату кредита в срок.

In [25]:
family_pivot = df.pivot_table(index='family_status', columns='debt', values='gender', aggfunc='count', margins=True)
family_pivot

debt,0,1,All
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2536,274,2810
в разводе,1110,85,1195
вдовец / вдова,896,63,959
гражданский брак,3763,388,4151
женат / замужем,11408,931,12339
All,19713,1741,21454


#### Вывод

Зависимость есть. например вдовец / вдова исправнее отдают долг в срок, чем например Не женат / не замужем.

<a id="step_3_3"></a>
#### - Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [26]:
salary_pivot = df.pivot_table(index='salary_status', columns='debt', values='gender', aggfunc='count', margins=True)
salary_pivot

debt,0,1,All
salary_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
высокий доход,3760,331,4091
низкий доход,20,2,22
очень высокий доход,15604,1387,16991
средний доход,329,21,350
All,19713,1741,21454


#### Вывод

Люди со средним доходом больше возвращают кредит в срок.

<a id="step_3_4"></a>
#### - Как разные цели кредита влияют на его возврат в срок?

In [27]:
purpose_pivot = df.pivot_table(index='purpose_new1', columns='debt', values='gender', aggfunc='count', margins=True)
purpose_pivot

debt,0,1,All
purpose_new1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3903,403,4306
недвижимость,7723,603,8326
образование,3643,370,4013
ремонт,572,35,607
свадьба,2138,186,2324
строительство,1734,144,1878
All,19713,1741,21454


#### Вывод

Если берут кредит на ремонт, то вероятность возвращения в срок самая большая, а на автомобиль самая маленькая, из рассмотренных вариантов.

<a id="step_4"></a>
### Шаг 4. Дополнение.

Ответив на поставленные вопросы, захотелось сделать дополнительные расчеты для наглядности картины)

In [29]:
df.groupby('gender')['gender'].count()

gender
F      14174
M       7279
XNA        1
Name: gender, dtype: int64

`Gender` имеет всего одно значение XNA, удалим его, чтобы не отвлекало от результатов, а так как значение всего одно, это не повлиет на резульат. Сначала найдем номер нужной строчки, а затем удалим ее, также применим 'reset_index' для правильного порядка строчек.

In [30]:
 df[df['gender'] == 'XNA']['gender']

10684    XNA
Name: gender, dtype: object

In [31]:
df = df.drop(index=[10684]).reset_index(drop=True)
df.groupby('gender')['gender'].count()

gender
F    14174
M     7279
Name: gender, dtype: int64

Как видно, женщины в 2 раза больше берут кредиты, чем мужчины. Это может быть обусловленно совсем разными факторами. 
- Автомобиль. В последние годы за рулем всё больше стало появляться женщен. Следовательно нужен автомобиль, а так как цена данного преобретения высока, приходится брать кредит.
- Ипотека. Независимость от мужчин в жилищном плане.
- Женщины смелее мужчин в больших покупках.

А теперь, чтобы посмотреть, кто чаще не имеет долгов, создадим функцию для рассчетов женщин и мужчин с долгами и без, а затем посмотрим на соотношение дожников к честным плательщикам.

In [32]:
def gender(row):
    
    gender = row['gender']
    debt = row['debt']
    
    if gender == 'F':
        if debt == 0:
            return 'женщина без долгов'
        else:
            return 'женщина с долгами'
    if gender == 'M':
        if debt == 0:
            return 'мужчина без долгов'
        else:
            return 'мужчина с долгами'
        
df['gender_status'] = df.apply(gender, axis=1)
df.groupby('gender_status')['gender_status'].count().sort_values(ascending=False)
g1 = df[df['gender_status'] == 'женщина без долгов']['gender_status'].count() / total
g2 = df[df['gender_status'] == 'женщина с долгами']['gender_status'].count() / total
g3 = df[df['gender_status'] == 'мужчина без долгов']['gender_status'].count() / total
g4 = df[df['gender_status'] == 'мужчина с долгами']['gender_status'].count() / total
print('Соотношение: женщина с долгами / женщина без долгов: {:.2%}'.format(g2 / g1))
print('Соотношение: мужчина с долгами / мужчина без долгов: {:.2%}'.format(g4 / g3))

Соотношение: женщина с долгами / женщина без долгов: 7.54%
Соотношение: мужчина с долгами / мужчина без долгов: 11.44%


Как видно девушки на 4% исправнее расчитываются за кредиты, чем мужчины, вероятнее это обусловленно самой "природой" полов. девушки более грамотно обращаются с деньгами и умеют планировать траты.

In [33]:
df_pivot = df.pivot_table(index=['gender', 'purpose_new1'], columns='family_status' , values='debt', aggfunc='count', fill_value=0, margins=True)
df_pivot

Unnamed: 0_level_0,family_status,Не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем,All
gender,purpose_new1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
F,автомобиль,405,217,208,312,1718,2860
F,недвижимость,713,413,387,511,3417,5441
F,образование,378,192,192,287,1618,2667
F,ремонт,65,30,27,41,228,391
F,свадьба,0,0,0,1562,0,1562
F,строительство,168,84,90,132,779,1253
M,автомобиль,232,64,10,122,1018,1446
M,недвижимость,508,112,28,241,1995,2884
M,образование,199,46,7,117,977,1346
M,ремонт,28,9,5,14,160,216


Из сводной таблицы видно, что девушки, которые находятся замужем, берут кредиты чаще на покупку недвижимости, у мужчин, такая же ситуация. Меньше всего кредиты берут люди, которые потеряли супруга / супругу.

<a id="step_5"></a>
### Шаг 5. Общий вывод.

Мы провели анализ DataFrame: изучили полученные данные, нашли недостатки в данных и исправили их, подготовили данные к анализу и ответили на поставленные вопросы.

- "Есть ли зависимость между наличием детей и возвратом кредита в срок?"

Семьи без детей чаще отдают кредиты, чем семьи с детьми. Это может быть обусловленно тем, что дети требуют дополнительных затрат, некоторые нельзя предвидеть.

- "Есть ли зависимость между семейным положением и возвратом кредита в срок?"

Люди проживающие одни, либо в не зарегестрированном браке, реже отдают кредиты, чем женатые, либо кто находился в браке.

- "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?"

Люди с низкими доходами чаще берут кредиты и чаще его не отдают, чем люди с остыльными уровнями дохода.
       
- "Как разные цели кредита влияют на его возврат в срок?"

Люди, которые берут кредиты на автомобиль и образование, реже отдают кредиты, чем на остальные цели, а те, кто берет кредит на ремонт, отдают его чаще всего.
        
- Также можно составить примерный портрет идеального человека для дачи кредита.
1. Женщина;
2. Без детей;
3. Вдова / в разводе;
4. Средний / высокий уровень дохода;
5. Цель кредита ремонт.