# Исследование надежности заемщиков.

 **Задача. Влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок?**

Описание данных:

**children** — количество детей в семье

**days_employed** — общий трудовой стаж в днях

**dob_years** — возраст клиента в годах

**education** — уровень образования клиента

**education_id** — идентификатор уровня образования

**family_status** — семейное положение

**family_status_id** — идентификатор семейного положения

**gender** — пол клиента

**income_type** — тип занятости

**debt** — имел ли задолженность по возврату кредитов

**total_income** — ежемесячный доход

**purpose** — цель получения кредита

### Шаг 1. Обзор данных

In [1]:
# Импортируем библиотеку pandas и прочитаем файл с исходными данными
import pandas as pd


In [2]:
pr_data = pd.read_csv('/datasets/data.csv')

In [3]:
pr_data.head()# выводим первые 10 строк датасета

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


###    Изучим общую информацию о данных, используя info() метод.

In [4]:
pr_data.info() # получим оиформацию о ds и выведем 20 срок на экран
pr_data.head(20)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [5]:
print(pr_data.isnull().sum()) # выведем суммы пропусков по столбцам, а также их процент 

data_null = pr_data[pr_data["days_employed"].isnull()]
'Значения отсутствуют в: {:.1%}' .format(len(data_null) / len(pr_data))


children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


'Значения отсутствуют в: 10.1%'

In [6]:
# Рассмотрим уникальные значения данных для каждого столбца.
for row in pr_data: 
  print(pr_data[row].value_counts())


 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
-327.685916     1
-1580.622577    1
-4122.460569    1
-2828.237691    1
-2636.090517    1
               ..
-7120.517564    1
-2146.884040    1
-881.454684     1
-794.666350     1
-3382.113891    1
Name: days_employed, Length: 19351, dtype: int64
35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64
среднее   

In [7]:
pr_data.describe() # используем метод describe() для наглядности разброс значений, максимум, минимум, среднее и медиан

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


#### Выводы:

1. Не реалистичное минимальное(-1), а также максимальное(20) значение по 'children'. Проверим, сколько таких строк имеется в датафрейме. Вполне возможно, что это ошибка.
2. Отрицательные значения по количеству отработанных дней 'days_employed' или аномалия. Возьмем значения по модулю, чтобы уйти от отрицательного значения.
3. Среднее значение по количеству отработанных дней 'days_employed' - 173 года (63046 дней).Здесь уже идет явный перекос.
4. Возраст по некоторым строкам 'dob_years' равен 0. Возможно человеческий фактор и он просто не указан.
5. Попарные NaN в 'days_employed' и "total_income" - в 10% от общих данных.
6. В свою очередь столбцам 'days_employed' и 'total_income' стоит присвоить целочисленные значения.
7. Также в столбцах education и family_status есть надписи, осуществленные верхним регистром,которые нужно будкт перевести в нижний.
8. Благодаря describe, к примеру,можем видеть, ~75% значений из 'days_employed' отрицательные и не относятся к пенсионерам.


### Шаг 2.1 Предобработка данных
#### Заполнение пропусков

In [8]:
#поменяем значения в столбце 'children' 20->2, -1->1
pr_data['children'] = pr_data['children'].replace(20, 2)
pr_data['children'] = pr_data['children'].replace(-1, 1)

In [9]:
# Узнаем количество пропущенных значений
pr_data[pr_data['gender'] == 'XNA'].count()

children            1
days_employed       1
dob_years           1
education           1
education_id        1
family_status       1
family_status_id    1
gender              1
income_type         1
debt                1
total_income        1
purpose             1
dtype: int64

### Шаг 2.2 Проверка данных на аномалии и исправления.

*Отрицательная аномалия значения стажа дана в часах и ее нужно привести к положительному значению*

In [10]:
pr_data['days_employed']= pr_data['days_employed'].apply(abs) # возьмем значение 'days_employed'по модулю

#создадим фильтр c с дополнительными условиями
filter = (pr_data['dob_years'] - pr_data['days_employed'] / 365) < 12
pr_data.loc[filter,'days_employed'] = pr_data.loc[filter, 'days_employed'] / 24
pr_data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [11]:
#Приведем зачения столбца 'education' к нижнему регистру 
pr_data['education'] = pr_data['education'].str.lower()

### Шаг 2.3. Изменение типов данных.

In [12]:
# Столбец dob_years пропущенное значение. 
pr_data['dob_years'].min()
pr_data['dob_years'].max()

75

In [13]:
# Строка с пропущенным значением всего одна. Ее можно исключить из выборки. 
pr_data = pr_data[pr_data['gender'] != 'XNA']

In [14]:
# Для того чтобы заполнить пропущенные значения посчитаем медиану возраста клиента в годах (dob_years) для каждого типа занятости

income_type_gr = pr_data.groupby('income_type')['dob_years'].median()
income_type_gr 

income_type
безработный        38.0
в декрете          39.0
госслужащий        40.0
компаньон          39.0
пенсионер          60.0
предприниматель    42.5
сотрудник          39.0
студент            22.0
Name: dob_years, dtype: float64

In [15]:
# pr_data.is_copy = False

# Заполним пропущенные значения в столбце "dob_years" на основании медианы для каждого типа дохода
pr_data.loc[(pr_data['income_type'] == 'пенсионер') & (pr_data['dob_years'] == 0), 'dob_years'] = 60
pr_data.loc[(pr_data['income_type'] == 'студент') & (pr_data['dob_years'] == 0), 'dob_years'] = 22
pr_data.loc[(pr_data['income_type'] == 'сотрудник') & (pr_data['dob_years'] == 0), 'dob_years'] = 39
pr_data.loc[(pr_data['income_type'] == 'предприниматель') & (pr_data['dob_years'] == 0), 'dob_years'] = 42.5
pr_data.loc[(pr_data['income_type'] == 'компаньон') & (pr_data['dob_years'] == 0), 'dob_years'] = 39
pr_data.loc[(pr_data['income_type'] == 'госслужащий') & (pr_data['dob_years'] == 0), 'dob_years'] = 40
pr_data.loc[(pr_data['income_type'] == 'в декрете') & (pr_data['dob_years'] == 0), 'dob_years'] = 39
pr_data.loc[(pr_data['income_type'] == 'безработный ') & (pr_data['dob_years'] == 0), 'dob_years'] = 38

# Сделаем проверку 
pr_data['dob_years'].isnull().sum()


0

In [16]:
# Чтобы заполнить пропущенные значения в столбце трудовой стаж (days_employed) в днях можно взять медиану для каждой группы возраста. Для этого создадим новый столбец "age_group" и совершим проверку.
# 1 группа: 19 - 30
# 2 группа: 30 - 40
# 3 группа: 40 - 55 
# 4 группа: 55 - 75

def days_employed(row):
    
    age = row['dob_years']

    if age <= 30:
        return '1 группа'
    
    if age <= 40 and age > 30:
        return '2 группа'
    
    if age <= 55 and age > 40:
        return '3 группа'
    
    if age <= 80 and age > 55:
        return '4 группа'

pr_data['age_group'] = pr_data.apply(days_employed, axis=1)

pr_data['days_employed'] = pr_data['days_employed'].fillna(0)
pr_data.isnull().sum()

pr_data.groupby('age_group')['days_employed'].mean()[0]

pr_data.loc[(pr_data['age_group'] == '1 группа') & (pr_data['days_employed'] == 0 ), 'days_employed'] = pr_data.groupby('age_group')['days_employed'].mean()[0]
pr_data.loc[(pr_data['age_group'] == '2 группа') & (pr_data['days_employed'] == 0 ), 'days_employed'] = pr_data.groupby('age_group')['days_employed'].mean()[1]
pr_data.loc[(pr_data['age_group'] == '3 группа') & (pr_data['days_employed'] == 0 ), 'days_employed'] = pr_data.groupby('age_group')['days_employed'].mean()[2]
pr_data.loc[(pr_data['age_group'] == '4 группа') & (pr_data['days_employed'] == 0 ), 'days_employed'] = pr_data.groupby('age_group')['days_employed'].mean()[3]

pr_data[pr_data['total_income'] == 0].count()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64

In [17]:
# здесь можно заполнить пропуски медианой, в зависимости от типа занятости. используя функцию transform (Она создаёт новый столбец, который содержит столько же строк, сколько и изначальный, но только вместо оригинальных значений в каждой строке содержится медиана посчитанная по заданной группе)
pr_data['total_income'] = pr_data['total_income'].fillna(pr_data.groupby('income_type')['total_income'].transform("median"))
print(pr_data.isnull().sum()) # выполним проверку

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64


In [18]:
# Изучим текущие типы данных 
pr_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21524 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21524 non-null  int64  
 1   days_employed     21524 non-null  float64
 2   dob_years         21524 non-null  float64
 3   education         21524 non-null  object 
 4   education_id      21524 non-null  int64  
 5   family_status     21524 non-null  object 
 6   family_status_id  21524 non-null  int64  
 7   gender            21524 non-null  object 
 8   income_type       21524 non-null  object 
 9   debt              21524 non-null  int64  
 10  total_income      21524 non-null  float64
 11  purpose           21524 non-null  object 
 12  age_group         21524 non-null  object 
dtypes: float64(3), int64(4), object(6)
memory usage: 2.3+ MB


In [19]:
# Для изменения типа данных используем метод astype() так как нам нужно изменить float на int64
# Изменим значения столбца total_income в числовой тип int64 (целое число) 
pr_data['total_income'] = pr_data['total_income'].astype('int')

In [20]:
# Изменим значения столбца dob_years в числовой тип int64 (целое число) 
pr_data['dob_years'] = pr_data['dob_years'].astype('int')

In [21]:
# Изменим значения столбца days_employed в числовой тип int64 (целое число) и возьмем значения по модулю 
pr_data['days_employed'] = pr_data['days_employed'].astype('int')
pr_data['days_employed'] = abs(pr_data['days_employed'])

pr_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21524 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21524 non-null  int64 
 1   days_employed     21524 non-null  int64 
 2   dob_years         21524 non-null  int64 
 3   education         21524 non-null  object
 4   education_id      21524 non-null  int64 
 5   family_status     21524 non-null  object
 6   family_status_id  21524 non-null  int64 
 7   gender            21524 non-null  object
 8   income_type       21524 non-null  object
 9   debt              21524 non-null  int64 
 10  total_income      21524 non-null  int64 
 11  purpose           21524 non-null  object
 12  age_group         21524 non-null  object
dtypes: int64(7), object(6)
memory usage: 2.3+ MB


### Шаг 2.4. Удаление дубликатов.

*Находим дубликаты, просматриваем их и обрабатываем.*

In [22]:
# Посчитаем количество дубликатов в наборе данных. Дубликаты в категориях были исключены выше для каждого столбца. 
pr_data.duplicated().sum()

# Удалим дубликаты используя метод drop_duplicates() с новой индексацией и осуществим проверку
pr_data = pr_data.drop_duplicates().reset_index(drop=True)
pr_data.duplicated().sum()

0

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

*Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма необходимы для дальнейшего анализа данных по конкретеным параметрам датафрейма в зависимости от целей поставленной задачи.*

In [23]:
education_dist = pr_data[['education_id', 'education']] # создание словаря

pr_data_education = pr_data.pivot_table(index=['education_id'], values = 'debt', aggfunc = ['sum','count','mean'])
pr_data_education.columns = ['debt','total', '%'] # создание сводной талицы
display(education_dist)
display(pr_data_education)
        
data_education_final = education_dist.merge(pr_data_education, on= 'education_id')#объединение словаря и сводной таблицы
display(data_education_final)


Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее
...,...,...
21448,1,среднее
21449,1,среднее
21450,1,среднее
21451,1,среднее


Unnamed: 0_level_0,debt,total,%
education_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,278,5250,0.052952
1,1364,15172,0.089902
2,68,743,0.091521
3,31,282,0.109929
4,0,6,0.0


Unnamed: 0,education_id,education,debt,total,%
0,0,высшее,278,5250,0.052952
1,0,высшее,278,5250,0.052952
2,0,высшее,278,5250,0.052952
3,0,высшее,278,5250,0.052952
4,0,высшее,278,5250,0.052952
...,...,...,...,...,...
21448,4,ученая степень,0,6,0.000000
21449,4,ученая степень,0,6,0.000000
21450,4,ученая степень,0,6,0.000000
21451,4,ученая степень,0,6,0.000000


In [24]:
family_dist = pr_data[['family_status_id', 'family_status']] # создание словаря
pr_data_family = pr_data.pivot_table(index=['family_status_id'], values = 'debt', aggfunc = ['sum','count','mean'])# создание сводной таблицы
pr_data_family.columns = ['debt','total', '%']
display(family_dist)
display(pr_data_family)
data_family_final = family_dist.merge(pr_data_family, on= 'family_status_id') #объединение сводной таблицы и словаря
display(data_family_final)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак
...,...,...
21448,1,гражданский брак
21449,0,женат / замужем
21450,1,гражданский брак
21451,0,женат / замужем


Unnamed: 0_level_0,debt,total,%
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,931,12339,0.075452
1,388,4150,0.093494
2,63,959,0.065693
3,85,1195,0.07113
4,274,2810,0.097509


Unnamed: 0,family_status_id,family_status,debt,total,%
0,0,женат / замужем,931,12339,0.075452
1,0,женат / замужем,931,12339,0.075452
2,0,женат / замужем,931,12339,0.075452
3,0,женат / замужем,931,12339,0.075452
4,0,женат / замужем,931,12339,0.075452
...,...,...,...,...,...
21448,4,Не женат / не замужем,274,2810,0.097509
21449,4,Не женат / не замужем,274,2810,0.097509
21450,4,Не женат / не замужем,274,2810,0.097509
21451,4,Не женат / не замужем,274,2810,0.097509


### Шаг 2.6. Категоризация дохода.

*Категоризация  датафрейма по конкретным группам необходимы для успешного анализа данныха в зависимости от целей поставленной задачи.*

In [25]:
# Сгрупируем данные о доходе в месяц. Сохраним данные в столбце total_income_categori, добавим в таблицу с помощью метода apply()
# 'E' группа: 0-30000
# 'D' группа: 30001 - 50000
# 'C' группа: 50001 - 200000
# 'B' группа: 200001 - 1000000
# 'A' группа: 1000001 и выше
# Сохраним данные в столбце total_income_categori, добавим в таблицу с помощью метода apply()
def total_income_categori(row):
    
    income = row['total_income']

    if income <= 30000:
        return 'E'
    
    if income <= 50000 and income > 30001:
        return 'D'
    
    if income <= 200000 and income > 50001:
        return 'C'
    
    if income <= 1000000 and income > 200001:
        return 'B'
    if income >= 1000001:
        return 'A'

pr_data['total_income_categori'] = pr_data.apply(total_income_categori, axis=1)

pr_data


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,total_income_categori
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,3 группа,B
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,2 группа,C
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,2 группа,C
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,2 группа,B
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,3 группа,C
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,3 группа,B
21449,0,14330,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,4 группа,C
21450,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,2 группа,C
21451,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,2 группа,B


### Шаг 2.7. Категоризация целей кредита.

*В датафрейме есть столбец ('purpose'), рассказывающий о целях получения кредита. В нем содержатся похожие друг на друга цели, но выраженные разными словами.*

In [26]:
pr_data['purpose'].unique()#Отобразим и изучим уникальные значения (цели кредита)

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [27]:
#  Изучив данные столбца необходимо добавить ещё 1 столбец ('purpose_category') с категорией цели кредита

def purpose_categori(list):
    if 'автомобил' in list:
        return "операции с автомобилем"
    if "недвижим" in list:
        return "операции с недвижимостью"
    if "жиль" in list:
        return "операции с недвижимостью"
    if "свадьб" in list:
        return "проведение свадьбы"
    if "образован" in list:
        return "получение образования"
    
pr_data['purpose_categori'] = pr_data['purpose'].apply(purpose_categori)   

pr_data.head(30)   

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,total_income_categori,purpose_categori
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,3 группа,B,операции с недвижимостью
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,2 группа,C,операции с автомобилем
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,2 группа,C,операции с недвижимостью
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,2 группа,B,получение образования
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,3 группа,C,проведение свадьбы
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,1 группа,B,операции с недвижимостью
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,3 группа,B,операции с недвижимостью
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,3 группа,C,получение образования
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,2 группа,C,проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,3 группа,C,операции с недвижимостью


### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [28]:
report = pr_data.pivot_table(index= 'children', columns = 'debt', values = 'total_income',aggfunc ='count').fillna(0)
report.columns= ['Нет задолженности','Задолженность']
report['% задолженности']= report['Задолженность'] /(report['Задолженность'] + report['Нет задолженности'])
display(report.style.format({'% задолженности':'{:.2%}', 'Задолженность': '{:.0f}'}))

Unnamed: 0_level_0,Нет задолженности,Задолженность,% задолженности
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13027.0,1063,7.54%
1,4410.0,445,9.17%
2,1926.0,202,9.49%
3,303.0,27,8.18%
4,37.0,4,9.76%
5,9.0,0,0.00%


##### Вывод 1: В среднем появляние ребенка увеличивает возможность просрочки платежа по кредиту. 

#### *Вопрос 2:* Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [29]:
report = pr_data.pivot_table(index= 'family_status', columns = 'debt', values = 'total_income',aggfunc ='count').fillna(0)
report.columns= ['Нет задолженности','Задолженность']
report['% задолженности']= report['Задолженность'] /(report['Задолженность'] + report['Нет задолженности'])
display(report.style.format({'% задолженности':'{:.2%}', 'Задолженность': '{:.0f}'}))

Unnamed: 0_level_0,Нет задолженности,Задолженность,% задолженности
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2536,274,9.75%
в разводе,1110,85,7.11%
вдовец / вдова,896,63,6.57%
гражданский брак,3762,388,9.35%
женат / замужем,11408,931,7.55%


#####  Вывод 2:  Не женатые/ Не замужние или люди в гражданском браке реже выплачивают кредит в срок.

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [30]:
data_pivot3 = pr_data.pivot_table(index=['debt'], columns='total_income_categori', values='age_group', aggfunc='count')

in1 = data_pivot3['E'][1] / data_pivot3['E'][0]
in2 = data_pivot3['D'][1] / data_pivot3['D'][0]
in3 = data_pivot3['C'][1] / data_pivot3['C'][0]
in4 = data_pivot3['B'][1] / data_pivot3['B'][0]
in5 = data_pivot3['A'][1] / data_pivot3['A'][0]
print("{0:.2f}% E".format(in1*100))
print("{0:.2f}% D".format(in2*100))
print("{0:.2f}% C".format(in3*100))
print("{0:.2f}% B".format(in4*100))
print("{0:.2f}% A".format(in4*100))  
    

10.00% E
6.38% D
9.28% C
7.60% B
7.60% A


##### *Вывод 3:  Люди с наименьшим доходом чаще других групп не выплачивают кредит в срок*.

#### Как разные цели кредита влияют на его возврат в срок?

In [31]:
report = pr_data.pivot_table(index= 'purpose_categori', columns = 'debt', values = 'total_income',aggfunc ='count').fillna(0)
report.columns= ['Нет задолженности','Задолженность']
report['% задолженности']= report['Задолженность'] /(report['Задолженность'] + report['Нет задолженности'])
display(report.style.format({'% задолженности':'{:.2%}', 'Задолженность': '{:.0f}'}))

Unnamed: 0_level_0,Нет задолженности,Задолженность,% задолженности
purpose_categori,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3903,403,9.36%
операции с недвижимостью,10028,782,7.23%
получение образования,3643,370,9.22%
проведение свадьбы,2138,186,8.00%


#####  *Вывод 4:  Люди с большей вероятностью выплачивают кредит если он взять на операции с жильем или недвижимостью или на свадьбу.*

### Общий вывод:
Отвечая на поставленный вопрос "Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок", могу дать следующий ответ - семеное положение и количество детей влияет на факт погашения кредита в строк:
-заемщики с официально оформленными отношениями (или которые в прошлом были в официальном в браке) и не имеющие детей - самые ответственные заемщики;
-заемщики, состоящие в неофициальном браке или находящиеся без отношений, при этом имеющие 1 или 2 детей - самые менее ответственные заемщики.
