In [1]:
# Адаптируем размер тетрадки
from IPython.display import display, HTML
display(HTML("<style>.container { width:90% !important; }</style>"))

<a id='31-bullet'></a>

## Название проекта: 
<b>  Исследование надёжности заёмщиков — анализ банковских данных <b/>

## Цель проекта: 
<b> Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. <b/>

   

<b> Данное исследование разделим на несколько частей:<b/>

##### Часть 1. Изучение общей информации:
* [1. Изучение файлов с данными, получение общей информации, загрузка библиотек.](#1-bullet)
* [2. Промежуточный вывод](#1.1-bullet)

##### Часть 2. Предобработка данных:
* [1. Работа с пропусками](#2.1-bullet)
* [2. Работа с аномальными значениями](#2.2-bullet)
* [3. Работа с типом данных](#2.3-bullet)
* [4. Работа с дубликатами](#2.4-bullet)
* [5. Создание новых столбцов в датафрейме](#2.5-bullet)
* [6. Промежуточный вывод](#2.6-bullet)


##### Часть 3. Ответьте на вопросы:
* [1. Есть ли зависимость между количеством детей и возвратом кредита в срок?](#3.1-bullet)
* [2. Есть ли зависимость между семейным положением и возвратом кредита в срок?](#3.2-bullet)
* [3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?](#3.3-bullet)
* [4. Как разные цели кредита влияют на его возврат в срок?](#3.4-bullet)

    
##### Часть 4. общий вывод:
* [1. Общий вывод и рекомендации.](#4-bullet)
    

## Описание проекта:
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
    
## Описание данных проекта: 
В данном исследовании представлены данные от банка — статистика о платёжеспособности клиентов.
    
Таблица data.csv:
* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита

<a id= '1-bullet'></a>
# Шаг 1. Изучение общей информации

In [2]:
import pandas as pd

In [3]:
try:
    df=pd.read_csv('/datasets/data.csv')
except:
    df=pd.read_csv('data.csv')


In [4]:
display(df)
df.info() # для наглядности, вывожу информацию + первые строки таблицы.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


<a id= '1.1-bullet'></a>
# вывод
Изучая данные датасета, выявил некоторые проблемы в данных:\
1- Столбец 'days_employed' выражает дни, а они не могут быть отрицательными, или больше лет в 'dob_years' \
2- Столбец 'education' имеет значения с разным регистром. (заглавные и прописные буквы)\
3- В столбцах 'days_employed' и 'total_income' есть пропуски в данных.

# Часть 2. Предобработка данных

<a id= '2.1-bullet'></a>
## Шаг 2.1 Заполнение пропусков

In [5]:
# В датасете 21525 записей (клиентов) разбитых на 12 столбцов, 4 количественных, 8 категориальных.
# приведем 'education_level' к нижнему регистру
df['education'] = df['education'].str.lower()

# ищем долю пропусков:
display(df[df['days_employed'].isnull()])
print('Пропусков в датасете:',21525-19351)
print('Доля пропусков в столбцах составляет:',2174/21525*100,'%')

#проверяю и заменяю нулевые значения dob_years:
df.loc[df['dob_years']==0, 'dob_years']=df['dob_years'].median()
display(df[df['dob_years']==0])

# возможно при выгрузке данных произошли ошибки
# лучше заполнить пропуски медианным значением для конкретной категории клиентов. Для этого подойдет столбец 'income_type'.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,высшее,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Пропусков в датасете: 2174
Доля пропусков в столбцах составляет: 10.099883855981417 %


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [6]:
# исправлю отрицательное значение.
df.loc[df['days_employed']<0,'days_employed']=df['days_employed'].abs()

#получаю значения 'income_type' для которых есть пропущенные значения в 'days_employed'
display(df.loc[df['days_employed'].isna(), 'income_type'].value_counts())

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

In [7]:
# заменяю значение 'total_income' на медианное по категориям граждан:
total_income_median= df.groupby('income_type')['total_income'].median()
df.loc[(df['total_income'].isna()) & (df['income_type']=='сотрудник'), 'total_income'] = total_income_median[6]
df.loc[(df['total_income'].isna()) & (df['income_type']=='компаньон'), 'total_income'] = total_income_median[3]
df.loc[(df['total_income'].isna()) & (df['income_type']=='пенсионер'), 'total_income'] = total_income_median[4]
df.loc[(df['total_income'].isna()) & (df['income_type']=='госслужащий'), 'total_income'] = total_income_median[2]
df.loc[(df['total_income'].isna()) & (df['income_type']=='предприниматель'), 'total_income'] = total_income_median[5]
df['total_income'].isna().sum()

0

In [8]:

# для 'days_employed' лучше подойдет мединное значение по возрастным категориям:
median_25= df.loc[df['dob_years']<=25]['days_employed'].median()
median_25_35= df.loc[(df['dob_years']>25) & (df['dob_years']<=35)]['days_employed'].median()
median_35_55= df.loc[(df['dob_years']>35) & (df['dob_years']<=55)]['days_employed'].median()
median_55= df.loc[df['dob_years'] > 55]['days_employed'].median()
print(median_25)
print(median_25_35)
print(median_35_55)
print(median_55)
df.loc[((df['days_employed'].isna()) & (df['dob_years']<=25)) ,'days_employed']=median_25
df.loc[((df['days_employed'].isna()) & (df['dob_years']>25) & (df['dob_years']<=35)),'days_employed']=median_25_35
df.loc[((df['days_employed'].isna()) & (df['dob_years']>35) & (df['dob_years']<=55)),'days_employed']=median_35_55
df.loc[((df['days_employed'].isna()) & (df['dob_years'] > 55)),'days_employed']=median_55

#проверю если остались пропуски:
df.isna().sum()

#использование медианных значении, в данном случае, исключит возможные ошибки, погрешности.

797.5918331374241
1350.995299700644
2288.0411993739845
347542.4835635039


children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

In [9]:
display(df.total_income.unique())

df.days_employed.unique()

array([253875.6394526 , 112080.01410244, 145885.95229686, ...,
        89672.56115303, 244093.05050043,  82047.41889948])

array([8437.67302776, 4024.80375385, 5623.42261023, ..., 2113.3468877 ,
       3112.4817052 , 1984.50758853])

<a id= '2.2-bullet'></a>
## Шаг 2.2 Проверка данных на аномалии и исправления.

In [10]:
df.sort_values(by=['days_employed'],ascending=False)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
6954,0,401755.400475,56,среднее,1,вдовец / вдова,2,F,пенсионер,0,176278.441171,ремонт жилью
10006,0,401715.811749,69,высшее,0,Не женат / не замужем,4,F,пенсионер,0,57390.256908,получение образования
7664,1,401675.093434,61,среднее,1,женат / замужем,0,F,пенсионер,0,126214.519212,операции с жильем
2156,0,401674.466633,60,среднее,1,женат / замужем,0,M,пенсионер,0,325395.724541,автомобили
7794,0,401663.850046,61,среднее,1,гражданский брак,1,F,пенсионер,0,48286.441362,свадьба
...,...,...,...,...,...,...,...,...,...,...,...,...
2127,1,34.701045,31,высшее,0,женат / замужем,0,F,компаньон,0,90557.994311,получение образования
9683,0,33.520665,43,среднее,1,Не женат / не замужем,4,M,сотрудник,1,128555.897209,приобретение автомобиля
6157,2,30.195337,47,среднее,1,гражданский брак,1,M,компаньон,0,231461.185606,свадьба
8336,0,24.240695,32,высшее,0,Не женат / не замужем,4,M,сотрудник,0,124115.373655,получение дополнительного образования


<b> Вывод
* От нулевых и отрицательных значении избавился на этапе обработки пропусков
* Возможна ошибка при выгрузке данных.


<a id= '2.3-bullet'></a>
## Шаг 2.3. Изменение типов данных.

In [11]:
# Для начала проверим обий тип данных по столбцам
df.dtypes

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
dtype: object

In [12]:
# теперь поменяем тип данных в нужном столбце
df['total_income']=df['total_income'].astype(int)

In [13]:
# убедимся, что правильно изменили
df.dtypes

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income          int32
purpose              object
dtype: object

<a id= '2.4-bullet'></a>
## Шаг 2.4. Удаление дубликатов.

In [14]:
# находим общее количество дубликатов
print(df.duplicated().sum())
#выводим первые строки датафрейма для изучения
df[df.duplicated()].sort_values('dob_years', ascending = False).head(15)

72


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
9604,0,347542.483564,71,среднее,1,гражданский брак,1,F,пенсионер,0,118514,на проведение свадьбы
7938,0,347542.483564,71,среднее,1,гражданский брак,1,F,пенсионер,0,118514,на проведение свадьбы
9528,0,347542.483564,66,среднее,1,вдовец / вдова,2,F,пенсионер,0,118514,операции со своей недвижимостью
20187,0,347542.483564,65,среднее,1,гражданский брак,1,F,пенсионер,0,118514,сыграть свадьбу
18428,0,347542.483564,64,среднее,1,женат / замужем,0,F,пенсионер,0,118514,жилье
13639,0,347542.483564,64,среднее,1,женат / замужем,0,F,пенсионер,0,118514,автомобиль
20702,0,347542.483564,64,среднее,1,женат / замужем,0,F,пенсионер,0,118514,дополнительное образование
7921,0,347542.483564,64,высшее,0,гражданский брак,1,F,пенсионер,0,118514,на проведение свадьбы
17338,0,347542.483564,64,среднее,1,гражданский брак,1,F,пенсионер,0,118514,сыграть свадьбу
10864,0,347542.483564,62,среднее,1,женат / замужем,0,F,пенсионер,0,118514,ремонт жилью


In [15]:
df = df.drop_duplicates().reset_index(drop=True) 

df.duplicated().sum()

0

<b> Вывод
* Выбрал данный метод поиска и удаления так как нужно было искать именно дупликаты для их дальнейшей обработки или удаления.
* Возможно появление дубликатов связано с человеческим фактором. 
* Возможно один человек направлял несколько заявок

<a id= '2.5-bullet'></a>
## Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [16]:
# создаем датафрейм для уникальных значении 'education' которому соответствуют уникальные значение 'education_id'
df_education_unique=df[['education','education_id']]
df_education_unique = df_education_unique.drop_duplicates().reset_index(drop=True)
df_education_unique

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [17]:
# повторяем для family_status и family_status_id
df_family_status_unique=df[['family_status','family_status_id']]
df_family_status_unique = df_family_status_unique.drop_duplicates().reset_index(drop=True)
df_family_status_unique

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [18]:
# удаляем столбцы education и family_status из датафрейма
df= df.drop(columns=['education', 'family_status'])
df

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422610,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,1,1,F,компаньон,0,224791,операции с жильем
21449,0,343937.404131,67,1,0,F,пенсионер,0,155999,сделка с автомобилем
21450,1,2113.346888,38,1,1,M,сотрудник,1,89672,недвижимость
21451,3,3112.481705,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля



## Шаг 2.6. Категоризация дохода.

In [19]:
#Для начала создадим функцию которая и будет распределять категории
def total_income_category(total_income):
    if total_income <= 30000:
        return 'E'
    elif 30001 < total_income <= 50000:
        return 'D'
    elif 50001 < total_income <= 200000:
        return 'C'
    elif 200001 < total_income <= 1000000:
        return 'B'
    return 'A'
df['total_income_category']= df['total_income'].apply(total_income_category)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C



## Шаг 2.7. Категоризация целей кредита.

In [20]:
# для начала узнаем какие уникальные значения есть в столбце 'purpose'. Это поможет понять к какой категории их относить
df['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [21]:
# Создадим функцию, которая на основании данных из столбца 'purpose' сформирует новый столбец 'purpose_category'
def purpose_category (purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'
    elif 'свад' in purpose:
        return 'проведение свадьбы'
    elif 'образов' in purpose:
        return 'получение образования'
    else:
        return 'операции с недвижимостью'

In [22]:
#Отфильтруем значения в новую категорию
df['purpose_category']=df['purpose'].apply(purpose_category)
#проверим результат
df

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.422610,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,1,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21449,0,343937.404131,67,1,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем
21450,1,2113.346888,38,1,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21451,3,3112.481705,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем



# Часть 3. Ответьте на вопросы:

<a id= '3.1-bullet'></a>
## Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [23]:
# изучим данные
print(df['debt'].unique())
df['children'].unique()

[0 1]


array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [24]:
# значения детей -1 и 20, приму как опечатки и исправлю на 1 и 2
df.loc[df['children']==20, 'children']=2
df.loc[df['children']==-1, 'children']=1
df['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

In [25]:
# построим таблицу зависимости кол. детей от долгов
df_pivot_ch = df.pivot_table(index = 'children', values = 'debt')
df_pivot_ch

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.075444
1,0.091658
2,0.094925
3,0.081818
4,0.097561
5,0.0


In [26]:
df.groupby('children')['debt'].agg(['count','sum','mean'])

Unnamed: 0_level_0,count,sum,mean
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14090,1063,0.075444
1,4855,445,0.091658
2,2128,202,0.094925
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0



<b> Вывод
    
Самые высокие показатели долгов среди тех заемщиков у которых 4 ребенка. Наименьшее у которых детей нет. Возможно обусловленно тем, что дети, сами по себе требуют больших трат, чот затрудняет возврат кредита.
 


<a id= '3.2-bullet'></a>
## Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [27]:
# возвращаем удаленный столбец
df = df.merge(df_family_status_unique, on='family_status_id', how='left')
# строим таблицу отношения семейного статуса к долгу
df_pivot_f = df.pivot_table(index = 'family_status', columns = 'debt', values = 'gender', aggfunc = 'count')
df_pivot_f

debt,0,1
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
Не женат / не замужем,2536,274
в разводе,1110,85
вдовец / вдова,896,63
гражданский брак,3762,388
женат / замужем,11408,931


In [28]:
# узнаем долю людей с долгами от общей
df_pivot_f['ratio']= (df_pivot_f[1] / (df_pivot_f[0] + df_pivot_f[1]))
df_pivot_f

debt,0,1,ratio
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2536,274,0.097509
в разводе,1110,85,0.07113
вдовец / вдова,896,63,0.065693
гражданский брак,3762,388,0.093494
женат / замужем,11408,931,0.075452


Наименьшее количество долгов имеют люди в разводе, вдовец / вдова. \
Наибольшую люди в гражданском браке

<a id= '3.2-bullet'></a>
## Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [29]:
df_pivot_total_income = df.pivot_table(index = ['total_income_category'], columns = 'debt', values = 'gender', aggfunc = 'count')

# посчитаем вероятность задолженности для каждой группы доходов
df_pivot_total_income['ratio']= df_pivot_total_income[1] / (df_pivot_total_income[0] + df_pivot_total_income[1])
df_pivot_total_income

debt,0,1,ratio
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,24,2,0.076923
B,4685,356,0.070621
C,14654,1360,0.084926
D,329,21,0.06
E,20,2,0.090909


<b> Вывод

Чаще всего долги берут люди со средним достатком

<a id= '3.4-bullet'></a>
## Как разные цели кредита влияют на его возврат в срок?

In [30]:
# построим сводную таблицу для ответа на вопрос
df_pivot = df.pivot_table(index='purpose_category', values='debt', aggfunc='count')
df_pivot

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с автомобилем,4306
операции с недвижимостью,10811
получение образования,4013
проведение свадьбы,2323


In [31]:
df_pivot_purpose = df.pivot_table(index='purpose_category',values='purpose', columns = 'debt', aggfunc='count')
df_pivot_purpose['ratio']= df_pivot_purpose[1] / (df_pivot_purpose[0] + df_pivot_purpose[1])
df_pivot_purpose

debt,0,1,ratio
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3903,403,0.09359
операции с недвижимостью,10029,782,0.072334
получение образования,3643,370,0.0922
проведение свадьбы,2137,186,0.080069


Чаще всего кредит берут на операции с недвижимостью. Реже всего на проведение свадьбы. 

<a id= '4-bullet'></a>
# Часть 4. общий вывод:


<b> Для банка, лучший заемщик это человек который берет кредит на операции с недвижимостью, при этом имеет высокий доход. Состоит в гражданском браке но не имеет детей. 
