# Исследование надежности заемщиков.

Кредитный отдел банка проводит подготовительные работы по разработке модели *кредитного скоринга* - специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

В качетве одного из базисов кредитный отдел хочет учитывать ряд факторов, таких как семейное положение и количество детей у заемщика.

**Цель исследования** - проверить  гипотезу о влиянии семейного положения и количества детей клиента на факт погашения кредита в срок.




### Шаг 1. Обзор данных

Ознакомимся с таблицей на данном этапе. Для начала применим библиотеку Pandas для вывода данных. Для начала ознакомимся с первыми 15-ю строками таблицы

In [1]:
import pandas as pd

In [2]:
try:
    credit_data = pd.read_csv('/datasets/data.csv')
except:
    credit_data = pd.read_csv('data.csv')


credit_data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Теперь ознакомимся с последними 15-ю строками таблицы

In [3]:
credit_data.tail(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21510,2,,28,среднее,1,женат / замужем,0,F,сотрудник,0,,приобретение автомобиля
21511,0,-612.569129,29,высшее,0,гражданский брак,1,F,сотрудник,1,140068.472941,покупка жилья для сдачи
21512,0,-165.377752,26,высшее,0,Не женат / не замужем,4,M,компаньон,0,147301.457769,получение дополнительного образования
21513,0,-1166.216789,35,среднее,1,женат / замужем,0,F,сотрудник,0,250986.142309,покупка жилья
21514,0,-280.469996,27,неоконченное высшее,2,Не женат / не замужем,4,M,компаньон,0,355988.407188,строительство недвижимости
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости


Для дальнейшего удобства приведем расшифровку столбцов

*children* — количество детей в семье

*days_employed* — общий трудовой стаж в днях

*dob_years* — возраст клиента в годах

*education* — уровень образования клиента

*education_id* — идентификатор уровня образования

*family_status* — семейное положение

*family_status_id* — идентификатор семейного положения

*gender* — пол клиента

*income_type* — тип занятости

*debt* — имел ли задолженность по возврату кредитов

*total_income* — ежемесячный доход

*purpose* — цель получения кредита

Теперь получим общую информацию о представленной таблице

In [4]:
credit_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В данной таблице отличается количество значений в столбцах days_employed (общий трудовой стаж в днях) и total_income (ежемесяный доход) по сравнению с остальными. На последующих шагах будет проведена работа по проверке на аномалии дубликаты и исправления.

### Шаг 2.1 Заполнение пропусков

Выявним в каких столбцах имеются пропущенные значения.

In [5]:
credit_data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропущены значения в 2-х столбцах: days_employed и total_income.

Проверим долю пропущенных значений в столбце days_employed (стаж работы)

In [6]:
credit_data['days_employed'].isna().mean()


0.10099883855981417

Проверим долю пропущенных значений в столбце total_income (ежемесячный доход)

In [7]:
credit_data['total_income'].isna().mean()

0.10099883855981417

Доля пропусков данных столбцах составляет порядка 11%. Игнорирование данный пропусков может привести к некорректным результатам  в исследовании.

Проверим, какие есть уникальные значения в данных столбцах.

In [8]:
credit_data[credit_data['days_employed'].isna()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


In [9]:
credit_data[credit_data['total_income'].isna()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


В столбце total_income имеются пропущенные значения. Значение в данном столбце заполним медианным, чтобы исключить сдвиг от равновесия по доходам заемщиков

In [10]:
median_total_income = credit_data['total_income'].median()
median_total_income

145017.93753253992

Заменим пропущенные значения на медианное в столбце total_income и проверим, что замена прошла успешно.

In [11]:
credit_data['total_income'] = credit_data['total_income'].fillna(median_total_income)
credit_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [12]:
check_data = credit_data[credit_data['total_income'] == median_total_income]
check_data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,145017.937533,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,145017.937533,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,145017.937533,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,145017.937533,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,145017.937533,сыграть свадьбу


Мы заменили данные в столбце total_incomе. Далее нам предстоит обработать другие стобцы: проверить аномалии, дубликаты, скорректировать типы данных

### Шаг 2.2 Проверка данных на аномалии и исправления.

В столбце days_employed (стаж работы) присудствуют пропуски, а также отображены отрицательные значения. Более того если каждое перевести в года, то получатся аномальные значения. Рассмотрим более подробно таблицы и отсортируем  сначала по положительным, затем по отрицательным значениям.

In [13]:
sort_credit_data_plus = credit_data.sort_values(by = 'days_employed', ascending=False)
sort_credit_data_plus.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
6954,0,401755.400475,56,среднее,1,вдовец / вдова,2,F,пенсионер,0,176278.441171,ремонт жилью
10006,0,401715.811749,69,высшее,0,Не женат / не замужем,4,F,пенсионер,0,57390.256908,получение образования
7664,1,401675.093434,61,среднее,1,женат / замужем,0,F,пенсионер,0,126214.519212,операции с жильем
2156,0,401674.466633,60,среднее,1,женат / замужем,0,M,пенсионер,0,325395.724541,автомобили
7794,0,401663.850046,61,среднее,1,гражданский брак,1,F,пенсионер,0,48286.441362,свадьба


In [14]:
sort_credit_data_minus = credit_data.sort_values(by = 'days_employed', ascending=True)
sort_credit_data_minus.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
16335,1,-18388.949901,61,среднее,1,женат / замужем,0,F,сотрудник,0,186178.934089,операции с недвижимостью
4299,0,-17615.563266,61,среднее,1,женат / замужем,0,F,компаньон,0,122560.741753,покупка жилья
7329,0,-16593.472817,60,высшее,0,женат / замужем,0,F,сотрудник,0,124697.846781,заняться высшим образованием
17838,0,-16264.699501,59,среднее,1,женат / замужем,0,F,сотрудник,0,51238.967133,на покупку автомобиля
16825,0,-16119.687737,64,среднее,1,женат / замужем,0,F,сотрудник,0,91527.685995,покупка жилой недвижимости


Из сортировки данных видно, что у пенсионеров стаж имеет положительные значения, а 
у не пенсионеров стаж отрицательный. При том аномальные при переводе дней в года. Проверим данные утвержденния

In [15]:
check_pensioner = credit_data[credit_data['income_type'] == 'пенсионер']
check_pensioner.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,145017.937533,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости


In [16]:
check_not_pensioner = credit_data[credit_data['income_type'] != 'пенсионер']
check_not_pensioner.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья


Действительно, при фильтарции данных мы видим подтверждение. Для дальнейшей работы требуется привести данные по стажу к реальному виду и  в последстви разобраться с пропусками. проведем корректировки в столбце days_employed.

Вероятно отрицательные числа могли появиться в следствие того, что перепутались местами время начала и конца работы.
Для корректировки данного столбца необходимо:

1. значения > 0 поделим на 20

2. значаения < 0 переведем в абсолютные значения

In [17]:
credit_data.loc[credit_data['days_employed'] >=0, 'days_employed'] = credit_data['days_employed']/20
credit_data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,17013.303602,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [18]:
credit_data.loc[credit_data['days_employed'] <=0, 'days_employed'] = credit_data['days_employed'].abs()
credit_data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,17013.303602,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Теперь заменим пропуски в столбце days_employed, на медианные значения

In [19]:
median_days_employed = credit_data['days_employed'].median()
credit_data['days_employed'] = credit_data['days_employed'].fillna(median_total_income)
credit_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Так как далее нам предстоит ответить на вопрос о влиянии количества детей на возврат кредита, проверим на аномалии значения в столбце children

In [20]:
check_children = credit_data['children'].unique()
check_children

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Имеется аномальное значение -1, вероятно, это ошибка. Проверим сколько раз данное значение встречается в столбце.

In [21]:
credit_data.groupby('children')['debt'].count()

children
-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: debt, dtype: int64

Так как значение занимает незначительную долю в столбце, примим допущение, что -1 это 0. 

In [22]:
credit_data.loc[credit_data['children'] == -1, 'children'] = 0
credit_data.groupby('children')['debt'].count()

children
0     14196
1      4818
2      2055
3       330
4        41
5         9
20       76
Name: debt, dtype: int64

### Шаг 2.3. Изменение типов данных.

Приведем значения в столбцах days_employed и total_income к целочисленным значениям и далее проверим результат.

In [23]:
credit_data['days_employed'] = credit_data['days_employed'].astype('int')
credit_data['total_income'] = credit_data['total_income'].astype('int')
credit_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int64 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int64 
 11  purpose           21525 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Шаг 2.4. Удаление дубликатов.

Проверим наличие дубликатов в таблице.

In [24]:
credit_data.duplicated().sum()

54

Избавимся от явных дубликатов

In [25]:
credit_data = credit_data.drop_duplicates().reset_index(drop=True)

Проверим, что избавились полностью от явных дубликатов.

In [26]:
credit_data.duplicated().sum()

0

Теперь обработаем неявные дубликаты в таблице.

In [27]:
credit_data['education'].value_counts()

среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [28]:
credit_data['family_status'].value_counts()

женат / замужем          12344
гражданский брак          4163
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

In [29]:
credit_data['gender'].value_counts()

F      14189
M       7281
XNA        1
Name: gender, dtype: int64

In [30]:
credit_data['income_type'].value_counts()

сотрудник          11091
компаньон           5080
пенсионер           3837
госслужащий         1457
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

In [31]:
credit_data['purpose'].value_counts()

свадьба                                   793
на проведение свадьбы                     773
сыграть свадьбу                           769
операции с недвижимостью                  675
покупка коммерческой недвижимости         662
покупка жилья для сдачи                   652
операции с жильем                         652
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          625
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Неявные дубликаты присудствуют в столбцах education  В столбце education дубликаты связаны с различием в регистрах. Основную работу сконцетрируем на них. Остальные столбцы в таблице не имеет смысла корректировать, в том числе, на данном этапе столбец purpose, возможно эти данные пригодятся. Одна из возможных причин появления неявных дубликатов в данных столбцах - человеческий фактор. Клиненты заполняют информацию о себе, как им угодно.

In [32]:
credit_data['education'].str.lower().value_counts()

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Сформируем дополнительные датафреймы на основании образования и семейного положения.

In [33]:
colums_education = ['education', 'education_id']
data_education = []
credit_education_id = credit_data.loc[:,['education', 'education_id']]
credit_family_status_id = credit_data.loc[:,['family_status', 'family_status_id']]
credit_family_status_id.sort_values(by = 'family_status_id')

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
12375,женат / замужем,0
12377,женат / замужем,0
12380,женат / замужем,0
12382,женат / замужем,0
...,...,...
6933,Не женат / не замужем,4
16520,Не женат / не замужем,4
16519,Не женат / не замужем,4
2808,Не женат / не замужем,4


Из исходного датафрейма удалим столбцы education и family_status. Они у нас будут находится в отдельных таблицах.

In [34]:
credit_data = credit_data.drop(columns = ['education', 'family_status'])
credit_data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,17013,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


### Шаг 2.6. Категоризация дохода.

Для дальнейшего анализа необходимо приступить к категоризации данных. 
Категоризацию данных будем производить по двум признакам:

1) ежемесячный доход заемщика

2) цель кредита.

Для создания новых столбцов создадим 2 функции, которые помогут произвести категоризацию.

На первом этапе создадим фунцию по категоризации доходов заемщика и далее эти данные внесем в новый столбец в исходной таблице.
Категории по доходам выразим в следующем виде.

0–30000 — 'E';

30001–50000 — 'D';

50001–200000 — 'C';

200001–1000000 — 'B';

1000001 и выше — 'A' 

In [35]:
def income_category(total_income):
    try:
        if total_income >= 0 and total_income <= 30000:
            return 'E'
        if total_income >= 30001 and total_income <= 50000:
            return 'D'
        if total_income >= 50001 and total_income <= 200000:
            return 'C'
        if total_income >= 200001 and total_income <= 1000000:
            return 'B'
        if total_income >= 1000001:
            return 'A'
    except:
        return 'ошибка в значениях'

Проверим, что функция работает корректно.

In [36]:
example_income = [10, 42000, 111000, 5000000]
for money in example_income:
    print(income_category(money))

E
D
C
A


Функция работает корректно,  теперь остается добавить новый столбец по категориям доходов в исходную таблицу. Назовем данный столбец total_income_category.

In [37]:
credit_data['total_income_category'] = credit_data['total_income'].apply(income_category)
credit_data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,17013,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


### Шаг 2.7. Категоризация целей кредита.

Теперь категоризируем информацию по категориям целей кредита. 
Для этого аналогично предыдущему примеру напишем функцию и добавим новый столбец к таблице.

Категории:

'операции с автомобилем'

'операции с недвижимостью'

'проведение свадьбы'

'получение образования'

In [38]:
def purpose_category(category):
    if 'автомобил' in category:
        return 'операции с автомобилем'
    if 'свадьб' in category:
        return 'проведение свадьбы'
    if 'образован' in category:
        return 'получение образования'
    if 'недвиж' or 'жиль' in category:
        return 'операции с недвижимостью'

In [39]:
credit_data['purpose_category'] = credit_data['purpose'].apply(purpose_category)
credit_data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,17013,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


### Ответы на вопросы.

##### Вопрос 1:

**Есть ли зависимость между количеством детей и возвратом кредита в срок?**

Расчитаем долю возвратов кредитов по каждой группе.

In [40]:
children_info = credit_data.groupby('children').agg({'debt': ['count', 'sum',]})
children_info

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,sum
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,14154,1064
1,4809,444
2,2052,194
3,330,27
4,41,4
5,9,0
20,76,8


In [41]:
children_info['ratio'] = children_info['debt']['sum'] / children_info['debt']['count'] 
children_info

Unnamed: 0_level_0,debt,debt,ratio
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14154,1064,0.075173
1,4809,444,0.092327
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0
20,76,8,0.105263


##### Вывод 1:

Процент невозврата кредита у заемщиков с детьми выше, чем у дургих. Прямой зависимости между количеством и сроком возврата кредита нет. При этом наибольший процент невозврата в срок у заемщиков с 1-2 детьми (>9%) и 8 детьми (10%)

##### Вопрос 2:

**Есть ли зависимость между семейным положением и возвратом кредита в срок?**

Рассмотрим зависимость между влиянием семейного положения и возвратом кредита в срок.

In [43]:
family_credit = credit_data.pivot_table(index=['family_status_id'], values=['debt'], aggfunc='mean')
family_credit

Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
0,0.075421
1,0.093202
2,0.065693
3,0.07113
4,0.097509


Так как работать со столбцом family_status_id не удобно, добавим к основной таблице столбец family_status по значению id, и далее выведем сводную таблицу. 
Перед присоединением столбца family_status к будующей сводной таблице, избавимся от дубликатов в таблице credit_family_status_id

In [44]:
credit_family_status_id.duplicated().sum()
credit_family_status_id = credit_family_status_id.drop_duplicates().reset_index(drop=True)

In [45]:
credit_family_status_id = credit_family_status_id.drop_duplicates().reset_index(drop=True)
credit_family_status_id.duplicated().sum()

0

Дубликаты удалены. Теперь построим сводную таблицу по семеному статусу и показателю возврата кредита в срок.

In [46]:
family_status_credit = credit_data.pivot_table(index='family_status_id', values='debt').reset_index()
family_status_credit

Unnamed: 0,family_status_id,debt
0,0,0.075421
1,1,0.093202
2,2,0.065693
3,3,0.07113
4,4,0.097509


Теперь с помощю метода merge присоединим к данной сводной таблице расшифровку по семеному статусу.

In [47]:
final_fam_stat_credit = family_status_credit.merge(credit_family_status_id, on='family_status_id', how='left')
final_fam_stat_credit

Unnamed: 0,family_status_id,debt,family_status
0,0,0.075421,женат / замужем
1,1,0.093202,гражданский брак
2,2,0.065693,вдовец / вдова
3,3,0.07113,в разводе
4,4,0.097509,Не женат / не замужем


##### Вывод 2:

На основании полученных данных установленно, что чаще всего не возвращают кредит в срок заемщики состоящие в гражданском браке и не женатые/не замужние (>9%). Вероятно, заемщики из данной группы любят жить в свое удовольстие не всегда объективно оценивая свои финансовые возможности. 

При этом меньше всего должников по займам в группе "вдовец/вдова" (6,5 %)

##### Вопрос 3:

**Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [48]:
total_income_credit = credit_data.pivot_table(index=['total_income_category'], values=['debt'], aggfunc='mean')
total_income_credit

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
A,0.08
B,0.070621
C,0.084825
D,0.06
E,0.090909


##### Вывод 3:

Прямой взаимосвязи между уровнем доходя и сроком возврата кредита нет. при этом мажно отметить, что чаще не возвращают заемщики с минимальным уровнем дохода (Категория Е), средним (категория С) и максимальным (Катергория А)

##### Вопрос 4:

**Как разные цели кредита влияют на его возврат в срок?**

In [49]:
purpose_credit = credit_data.pivot_table(index=['purpose_category'], values=['debt'], aggfunc='mean')
purpose_credit

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с автомобилем,0.093547
операции с недвижимостью,0.072314
получение образования,0.092177
проведение свадьбы,0.079657


##### Вывод 4:

Чаще всего задерживают оплату кредита по операциям с автомоблилями и с образованием.

## Общий вывод:

По итогам проведенного иследования можно однозначно утверждать, что **семейное положение влияет на факт погашения кредита в срок:**

1) Так мы выяснили, что неженатые заемщики и состоящие в гражданском браке чаще всего не возвращают кредиты в срок. К данной группе кредитному отделу банка следует отнестись более внимательно.

2) При этом вдовцы реже всего задерживают оплату по кредиту. 

3) Женатые и граждане в разводе, вероятно, более умеренны в своих тратах и возвращают кредит в срок чаще, чем неженатые и состоящие в браке.

**Количество детей влияет на факт погашения кредита в срок** - как правило семьи с 1-2 детьми чаще всего просрачивают оплату кредита в срок. 
В целом заемщики с детьми чаще не возвращают кредит в срок по сравнению с заемщиками без детей.

