# Кредитная истоия. Исследование надежности заемщиков

**Цель исследования** - в данном иследовании произведем оценку влияния семейного положение и количество детей клиента на факт погашения кредита в срок, ответив на следующие вопросы:

* Есть ли зависимость между количеством детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?

    
**Входные данные от банка** — статистика о платёжеспособности клиентов - 'data.csv'.

Результаты исследования необходимы для построения модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
   

## Обзор данных

Импорт необходимых библиотек и оценка преоставленных данных.

In [1]:
import pandas as pd

Сохраним предоставленные данные банком в df

In [2]:
df = pd.read_csv('data.csv')

Оценим полученные данные методом head и tail

In [3]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
df.tail()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


### Описание данных предоставленных банком

children — количество детей в семье

days_employed — общий трудовой стаж в днях

dob_years — возраст клиента в годах

education — уровень образования клиента

education_id — идентификатор уровня образования

family_status — семейное положение

family_status_id — идентификатор семейного положения

gender — пол клиента

income_type — тип занятости

debt — имел ли задолженность по возврату кредитов

total_income — ежемесячный доход

purpose — цель получения кредита

Оцениним полученную информацию методом info и describe на наличие пропущенный значений и наличия аномалий

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [6]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Обнаруженные проблемы в данных** 
1. Есть пропуски в total_income и days_employed
2. Использования различного регистра в education
3. Названия столбцов не ясно информируют о предоставленной информации
4. Неоптимальный типы данных для days_employed и total_income
5. Неясное количество трудового стажа в годах

**В данных так же встречаются аномалии**
1. Минимальное количество детей -1
2. Минимальный возраст клиента банка 0
3. Отрицательные значения в столбце days_employed. 



## Предобработка данных

Откоректируем названия столбцов на более информативные

In [7]:
df = df.rename(columns={'children':'number_of_children', 'days_employed':'total_year_employed', 
                        'dob_years':'age_years', 'total_income':'monthly_income'})

Проверим правильно ли обновились названия столбцов

In [8]:
df.columns

Index(['number_of_children', 'total_year_employed', 'age_years', 'education',
       'education_id', 'family_status', 'family_status_id', 'gender',
       'income_type', 'debt', 'monthly_income', 'purpose'],
      dtype='object')

Приведем регистр в столбце education к нижнему регистру.

In [9]:
df['education'] = df['education'].str.lower()

В стобце ежемесячный доход monthly_income в части строк отсутствуют значения по доходу. 

**Проверим совпадают ли строки с неуказанным доходом и строки в которых отсутствуе трудовой стаж**

In [10]:
df[(df['monthly_income'].isnull() == True) & (df['total_year_employed'].isnull() == True)].head(10)

Unnamed: 0,number_of_children,total_year_employed,age_years,education,education_id,family_status,family_status_id,gender,income_type,debt,monthly_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


Посчитаем количество строк удовлетворяющих этоиу условию

In [11]:
df[(df['monthly_income'].isnull() == True) & (df['total_year_employed'].isnull() == True)].count()

number_of_children     2174
total_year_employed       0
age_years              2174
education              2174
education_id           2174
family_status          2174
family_status_id       2174
gender                 2174
income_type            2174
debt                   2174
monthly_income            0
purpose                2174
dtype: int64

Данная гипотиза подвердилась, в предоставленной информации позиции в столбце monthly_income с отсутствующем месячным доходом соответствуют отсутствующему трудовому стажу в столбце total_days_employed
Также проверим для каких типов занятости данная гипотиза подтвердилась

In [12]:
df[(df['monthly_income'].isnull() == True) & (df['total_year_employed'].isnull() == True)]['income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

Данные о трудовом стаже и доходе отсутствуют для 5 типов занятости

Посчитаем какую долю составляют данные с пропущенной информацией. Разделим количество пропущенных значений на общее количество значений. Значение покажем в процентах.

In [13]:
df[df['monthly_income'].isnull() == True]['income_type'].count() / len(df) * 100

10.099883855981417

Недостающие данные составляют 10% от всего объема данных, что много. Данную информацию стоит передать сотрудникам занимающимся подготовкой данных, чтобы совместно найти проблему отсутствия информации. Возможно клиенты неполно и некоректно предоставляют информацию о доходе и трудовом стаже. 

**Считаю, что заполнять пропущенные значения дохода медианным значением некорректно, так как фактический доход потенциальных клиентов может быть ниже или отсутствовать вовсе. Такой подход может привести к росту количества выдач невозвратных кредитов или кредитов с просрочками платежей. Поэтому предлагаю сбросить стрки с отсутствующем значением дохода и стажа** 

Полученный data frame сохраним в новую переменную df_new

In [14]:
df_new = df.dropna().reset_index(drop = True)

In [15]:
df_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19351 entries, 0 to 19350
Data columns (total 12 columns):
number_of_children     19351 non-null int64
total_year_employed    19351 non-null float64
age_years              19351 non-null int64
education              19351 non-null object
education_id           19351 non-null int64
family_status          19351 non-null object
family_status_id       19351 non-null int64
gender                 19351 non-null object
income_type            19351 non-null object
debt                   19351 non-null int64
monthly_income         19351 non-null float64
purpose                19351 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 1.8+ MB


Проверим данные на наличие дубликатов и возможных пропущенных значений

In [16]:
df_new.duplicated().sum()

0

In [17]:
df_new.isna().sum()

number_of_children     0
total_year_employed    0
age_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
monthly_income         0
purpose                0
dtype: int64

В данных отсутствуют дубликаты и пропещенные значения

В столбце total_days_employed присутствуют отрецательные количество трудовых дней, что может быть оштбкой в следствии записи или выгрузки данных. Иправим это и также переведем трудовой стаж из дней в года для болего легкого восприятия данных.

In [18]:
df_new['total_year_employed'] = df_new['total_year_employed'].abs()

In [19]:
df_new['total_year_employed'] = df_new['total_year_employed'] / 365

Изменем тип данных для total_year_employed и monthly_income на целочисленный. Данный тип наиболее точно подходит к информации содержащейся в данных столбцах, а также облегчит восприятие иформации

In [20]:
df_new['total_year_employed'] = df_new['total_year_employed'].astype('int')

In [21]:
df_new['monthly_income'] = df_new['monthly_income'].astype('int')

Проверим результат произведенных изменений

In [22]:
df_new.head(10)

Unnamed: 0,number_of_children,total_year_employed,age_years,education,education_id,family_status,family_status_id,gender,income_type,debt,monthly_income,purpose
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,2,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,7,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,0,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,18,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,5,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


In [23]:
df_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19351 entries, 0 to 19350
Data columns (total 12 columns):
number_of_children     19351 non-null int64
total_year_employed    19351 non-null int32
age_years              19351 non-null int64
education              19351 non-null object
education_id           19351 non-null int64
family_status          19351 non-null object
family_status_id       19351 non-null int64
gender                 19351 non-null object
income_type            19351 non-null object
debt                   19351 non-null int64
monthly_income         19351 non-null int32
purpose                19351 non-null object
dtypes: int32(2), int64(5), object(5)
memory usage: 1.6+ MB


In [24]:
df_new.describe()

Unnamed: 0,number_of_children,total_year_employed,age_years,education_id,family_status_id,debt,monthly_income
count,19351.0,19351.0,19351.0,19351.0,19351.0,19351.0,19351.0
mean,0.537388,182.828019,43.255336,0.819079,0.972249,0.081184,167421.8
std,1.371408,380.908409,12.57917,0.550104,1.420596,0.273125,102971.6
min,-1.0,0.0,0.0,0.0,0.0,0.0,20667.0
25%,0.0,2.0,33.0,1.0,0.0,0.0,103053.0
50%,0.0,6.0,42.0,1.0,0.0,0.0,145017.0
75%,1.0,15.0,53.0,1.0,1.0,0.0,203434.5
max,20.0,1100.0,75.0,4.0,4.0,1.0,2265604.0


**Проанализируем данные по столбцам и избавимся от аномалий**

Посмотрим какововоличество записей с количеством дитей равном -1 и 20, данные значения представляются некоректными

In [25]:
df_new[df_new['number_of_children'] == -1]['number_of_children'].count()

44

In [26]:
df_new[df_new['number_of_children'] == 20]['number_of_children'].count()

67

Данная ошибка может быть вызвана некоретным вводом или выводом данных. Для отрецательного количества дитей значение заменим на положительное, а количество 20 заменим на 2

In [27]:
df_new['number_of_children'] = df_new['number_of_children'].replace(-1, 1)

In [28]:
df_new['number_of_children'] = df_new['number_of_children'].replace(20, 2)

Стаж работы в 1100 лет выглядит нереально, узнаем как часто встречается данная аномалия и для каких групп дохода.
Для проверки примем максимальный стаж работы 60 лет, для выявления аномалий в группах

In [29]:
df_new[df_new['total_year_employed'] > 60]['income_type'].value_counts()

пенсионер      3443
безработный       2
Name: income_type, dtype: int64

Оснавная проблема со стажем находится в группе пенсионер, а так же при детальном изучении аномалия стажа обнаружена в группе безработный. 
Для пенсионеров стаж заменим расчетным 49 лет  исходя из возраста выхода на пенсию 65 и началом работы в 16 лет.
Для группы безработный заменим на 0.

In [30]:
df_new.loc[df_new['income_type'] == 'пенсионер', 'total_year_employed'] = 49

In [31]:
df_new.loc[df_new['income_type'] == 'безработный'] = 0

Проверим данные после изменения

In [32]:
df_new.describe()

Unnamed: 0,number_of_children,total_year_employed,age_years,education_id,family_status_id,debt,monthly_income
count,19351.0,19351.0,19351.0,19351.0,19351.0,19351.0,19351.0
mean,0.479562,13.605498,43.251408,0.819027,0.972198,0.081133,167408.2
std,0.753893,17.435919,12.58654,0.550134,1.420613,0.273046,102982.4
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,2.0,33.0,1.0,0.0,0.0,103023.0
50%,0.0,6.0,42.0,1.0,0.0,0.0,145005.0
75%,1.0,15.0,53.0,1.0,1.0,0.0,203434.5
max,5.0,50.0,75.0,4.0,4.0,1.0,2265604.0


В даанных мы видим строки с нулевыми минимальными значениями, проверим их. Для поиска неявных пропущенных данных применим условие education = 0, так в этом столбце не должно быть значения равногу нулю.

In [33]:
df_new['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень', 0], dtype=object)

Оценим строки целиком для которых выполняется условие education=0

In [34]:
df_new[df_new['education'] == 0]

Unnamed: 0,number_of_children,total_year_employed,age_years,education,education_id,family_status,family_status_id,gender,income_type,debt,monthly_income,purpose
2832,0,0,0,0,0,0,0,0,0,0,0,0
13347,0,0,0,0,0,0,0,0,0,0,0,0


Выявленных строках полностью отсутствует информация
Перезапишем данные исключая строки, где education равно 0

In [35]:
df_new = df_new[df_new['education'] != 0]

Провери результат перезаписи Data Frame

In [36]:
df_new[df_new['education'] == 0]

Unnamed: 0,number_of_children,total_year_employed,age_years,education,education_id,family_status,family_status_id,gender,income_type,debt,monthly_income,purpose


In [37]:
df_new['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

В значениях family_status обнаружено нарушение регистра записи, приведем все значения к нижнему регистру

In [38]:
df_new['family_status'] = df_new['family_status'].str.lower()

In [39]:
df_new['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [40]:
df_new[df_new['gender'] == 'XNA']

Unnamed: 0,number_of_children,total_year_employed,age_years,education,education_id,family_status,family_status_id,gender,income_type,debt,monthly_income,purpose
9662,0,6,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


Обнаружена одна запись с непонятным значением 'XNA'

In [41]:
df_new['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий', 'студент',
       'предприниматель', 'в декрете'], dtype=object)

С типом дохода все впорядке

In [42]:
df_new['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'получение образования',
       'сделка с подержанным автомобилем', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее образование',
       'покупка жилья для сдачи

Явных нарушений в purpose не выявленно

### Выводы по разделу  

Была прведена оцунка предоставленных данных, входе обработки данных были исправленны названия столбцов на более информативные, выявлены строки с отсутствующеми данными которые могли повлиять на дальнейший анализ и от которых было принято решение избавиться. Исправлен трудовой стаж по котегории пенсионеры и безработные. Также осталось выявленно некоректное значения, которое было оставленно, так как на дальнейший анализ оно повлиять не должно.

**Создадим два новых дата фрейма** 

1. education - каждому уникальному значению из education соответствует уникальное значение education_id.

2. family_status -каждому уникальному значению из family_status соответствует уникальное значение family_status_id.

Затем удалим из исходного датафрейма df_new столбцы education и family_status, оставив только их идентификаторы: education_id и family_status_id. 

Новые датафреймы — это «словари», к которым можно обращаться по идентификатору.

In [43]:
education = df_new[['education', 'education_id']]

In [44]:
family_status = df_new[['family_status', 'family_status_id']]

In [45]:
df_new = df_new[['number_of_children', 'total_year_employed', 'age_years',
       'education_id', 'family_status_id', 'gender',
       'income_type', 'debt', 'monthly_income', 'purpose']]

Создадима функцию, которая, на основании диапазонов, указанных ниже, сформирует столбец total_income_category с категориями:

0–30000 — 'E'

30001–50000 — 'D'

50001–200000 — 'C'

200001–1000000 — 'B'

1000001 и выше — 'A'.

In [46]:
def category(monthly_income):
    if monthly_income <= 30000:
        return 'E'
    if 30001 < monthly_income <= 50000:
        return 'D'
    if 50001 <= monthly_income <= 200000:
        return 'C'
    if 200001 <= monthly_income <= 1000000:
        return 'B'
    if 1000001 <= monthly_income:
        return 'A'
    return 'Ошибка классификации'

In [47]:
df_new['total_income_category'] = df_new['monthly_income'].apply(category)

Выполним проверку работы функции, оценим уникальные значения в столбце total_income_category

In [48]:
df_new['total_income_category'].unique()

array(['B', 'C', 'D', 'E', 'A'], dtype=object)

In [49]:
df_new.head()

Unnamed: 0,number_of_children,total_year_employed,age_years,education_id,family_status_id,gender,income_type,debt,monthly_income,purpose,total_income_category
0,1,23,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,11,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,15,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,11,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,49,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


Создадим функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:

'операции с автомобилем'

'операции с недвижимостью'

'проведение свадьбы'

'получение образования'.

In [50]:
def credit_purpose_status(credit_purpose):
    if 'образован' in credit_purpose:
        return 'получение образования'
    if 'авто' in credit_purpose:
        return 'операции с автомобилем'
    if 'свадь' in credit_purpose:
        return 'проведение свадьбы'
    if 'жиль' in credit_purpose or 'недв' in credit_purpose:
        return 'операции с недвижимостью'
    return 'Ошибка классификации'

In [51]:
df_new['purpose_category'] = df_new['purpose'].apply(credit_purpose_status)

Выполним проверку работы функции, посмотрим уникальные значения в столбце purpose_category

In [52]:
df_new['purpose_category'].unique()

array(['операции с недвижимостью', 'операции с автомобилем',
       'получение образования', 'проведение свадьбы'], dtype=object)

In [53]:
df_new.head()

Unnamed: 0,number_of_children,total_year_employed,age_years,education_id,family_status_id,gender,income_type,debt,monthly_income,purpose,total_income_category,purpose_category
0,1,23,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,11,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,15,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,11,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,49,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


## Проверка гипотез

**1. Есть ли зависимость между количеством детей и возвратом кредита в срок?**

In [54]:
data_children_pivot = df_new.pivot_table(index=['number_of_children'], columns=['debt'], values='income_type', aggfunc='count')
data_children_pivot['percent_overdue'] = (data_children_pivot[1]/(data_children_pivot[0]+data_children_pivot[1]))*100
data_children_pivot.sort_values(by='percent_overdue', ascending=False)

debt,0,1,percent_overdue
number_of_children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,1733.0,185.0,9.645464
1,3978.0,408.0,9.302326
4,31.0,3.0,8.823529
0,11757.0,952.0,7.490755
3,272.0,22.0,7.482993
5,8.0,,


Зависимость от количества детей сущесвует, наличие детей снижает вероятность выплаты по кредитам в срок. Лучшим показателем по платежам по кредитам обладают заюмщики без детей и так же высокий уровень по выплатам показала категория с 3 детьми

**2. Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [55]:
status = df.groupby('family_status_id')['family_status'].value_counts()
status

family_status_id  family_status        
0                 женат / замужем          12380
1                 гражданский брак          4177
2                 вдовец / вдова             960
3                 в разводе                 1195
4                 Не женат / не замужем     2813
Name: family_status, dtype: int64

In [56]:
data_family_pivot = df_new.pivot_table(index=['family_status_id'], columns=['debt'], values='income_type', aggfunc='count')
data_family_pivot['percent_overdue'] = (data_family_pivot[1]/(data_family_pivot[0]+data_family_pivot[1]))*100
data_family_pivot.sort_values(by='percent_overdue', ascending=False)

debt,0,1,percent_overdue
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,2271,254,10.059406
1,3395,339,9.078736
0,10297,845,7.583917
3,1007,76,7.017544
2,809,56,6.473988


Зависимость есть, худшим показателем обладаю группы 4 и 1 - это Не женат / не замужем и гражданский брак.
Лучшими показателями обладают группы 2 и 3 - это вдовец / вдова и в разводе

**3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [57]:
data_income_pivot = df_new.pivot_table(index=['total_income_category'], columns=['debt'], values='income_type', aggfunc='count')
data_income_pivot['percent_overdue'] = (data_income_pivot[1]/(data_income_pivot[0]+data_income_pivot[1]))*100
data_income_pivot.sort_values(by='percent_overdue', ascending=False)

debt,0,1,percent_overdue
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,20,2,9.090909
C,12723,1189,8.546578
A,23,2,8.0
B,4684,356,7.063492
D,329,21,6.0


Можно сказать, с увеличением дохода снижается процент просроченных платежей, но при этом лучший результат показала группа с несамым высоким доходом

**4. Как разные цели кредита влияют на его возврат в срок?**

In [58]:
data_purpose_pivot = df_new.pivot_table(index=['purpose_category'], columns=['debt'], values='income_type', aggfunc='count')
data_purpose_pivot['percent_overdue'] = (data_purpose_pivot[1]/(data_purpose_pivot[0]+data_purpose_pivot[1]))*100
data_purpose_pivot.sort_values(by='percent_overdue', ascending=False)

debt,0,1,percent_overdue
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3530,367,9.417501
получение образования,3266,331,9.202113
проведение свадьбы,1941,158,7.527394
операции с недвижимостью,9042,714,7.318573


Лучшим показателем по выплатам в срок обладет группа операции с недвижимостью, данный результат корелируется с проведенными иследованиями выши. Данная группа как правлило обладает более высоким доходом

## Общий вывод

В  данной работе мы иследовали надежность заемщиков. Для проведения оценки были заданы следующте вопросы:

* Есть ли зависимость между количеством детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?

В результате мы получили следующие результаты:

* Зависимость от количества детей сущесвует, наличие детей снижает вероятность выплаты по кредитам в срок. Лучшим показателем по платежам по кредитам обладают заюмщики без детей и так же высокий уровень по выплатам показалакатегория с 3 детьми


* Зависимость есть, худшим показателем обладаю группы 4 и 1 - это Не женат / не замужем и гражданский брак.
Лучшими показателями обладают группы 2 и 3 - это вдовец / вдова и в разводе


* Можно сказать, с увеличением дохода снижается процент просроченных платежей, но при этом лучший результат показала группа с несамым высоким доходом


* Лучшим показателем по выплатам в срок обладет группа операции с недвижимостью, данный результат корелируется с проведенными иследованиями выши. Данная группа как правлило обладает более высоким 


**Как итог, можно сказать, что лучшими заемщиками являются клиенты с более высоким уровнем дохода, состоящие в браке или берущие кредит для операций с недвижимостью.**