# Исследование надежности заемщиков.

**Цель исследования**

Проверить, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок?
Есть ли зависимость между количеством детей и возвратом кредита в срок?
Есть ли зависимость между семейным положением и возвратом кредита в срок?
Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
Как разные цели кредита влияют на его возврат в срок?

**Ход исследования**

Данные берутся из файла data.csv. О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных.

Нужно проверить данные на ошибки и оценить их влияние на исследование. 

Таким образом, исследование пройдёт в три этапа:

Обзор данных.
Предобработка данных.
Проверка гипотез.

### Шаг 1. Обзор данных

In [1]:
# импорт библиотеки pandas
import pandas as pd

In [2]:
# чтение файла с данными и сохранение в df
df = pd.read_csv('/datasets/data.csv')

In [3]:
# получение первых 10 строк таблицы df
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
df.tail(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


In [5]:
# получение общей информации о данных в таблице df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, в таблице одиннадцать столбцов. Тип данных в столбцах - object, int64, float64

Согласно документации к данным:
* `children` — количество детей в семье;
* `days_employed` — общий трудовой стаж в днях;  
* `dob_years` — возраст клиента в годах;
* `education` — уровень образования клиента;
* `education_id` — идентификатор уровня образования;
* `family_status` — семейное положение;
* `family_status_id` — идентификатор семейного положения;
* `gender` — пол клиента;  
* `income_type` — тип занятости;
* `debt` — имел ли задолженность по возврату кредитов;
* `total_income` — ежемесячный доход;
* `purpose` — цель получения кредита.

Количество значений в столбцах `total_income` и `days_employed` отличается от других. Значит, в данных есть пропущенные значения. В столбце `days_employed` есть отрицательные значения, которые являются ошибочными данными.

### Шаг 2.1 Заполнение пропусков

In [6]:
# подсчёт пропусков
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [7]:
# Методом isna() найдём все строки с пропусками в столбце total_income и просмотрим первые пять.
# Можно сделать вывод, что NaN в 'days_employed' значит, что человек сейчас без работы, следовательно, он не может платить по кредиту
df[df['total_income'].isna()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


Можно сделать вывод, что NaN в 'days_employed' значит, что человек сейчас без работы, следовательно, он не может платить по кредиту. 


In [8]:
# Доля пропущенных значений в столбце 'total_income' соответствует доле пропущенных значений в столбце 'days_employed'. 
nan_share_income = len(df[df['total_income'].isna()])/len(df['total_income'])*100
nan_share_employ = len(df[df['days_employed'].isna()])/len(df['days_employed'])*100
print('Доля пропусков в столбце total_income:', nan_share_income)
print('Доля пропусков в столбце days_employed:', nan_share_employ)

Доля пропусков в столбце total_income: 10.099883855981417
Доля пропусков в столбце days_employed: 10.099883855981417


Заполним пропуски медианным значением, так как среднее значение некорректно характеризует данные, 
когда некоторые значения сильно выделяются среди большинства

In [9]:
# Заполнение пропусков медианными значениями в столбце 'total_income'
df['total_income'] = df['total_income'].fillna(df['total_income'].median())

In [10]:
# подсчёт пропусков
df['total_income'].isna().sum()

0

### Шаг 2.2 Проверка данных на аномалии и исправления.

В столбце 'days_employed' есть отрицательные значения, которые могли возникнуть в результате того, что перепутались местами время начала и конца работы. Также есть большие значения, которые равны стажу более 300 лет, чего не может быть, поэтому приведём их к более правдоподобному виду, разделив значения больше нуля на 20

In [11]:
# Нормируем значения 
df.loc[df['days_employed']>=0, 'days_employed'] = df.loc[df['days_employed']>=0, 'days_employed']/20
display(df)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,17013.303602,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,17196.870207,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [12]:
# Приведём все отрицательные значения к положительным
df['days_employed'] = df['days_employed'].abs()

In [13]:
# Заполним пропуски медианными значениям
df['days_employed'] = df['days_employed'].fillna(df['days_employed'].median())

In [14]:
# Проверка результата обработки
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,17013.303602,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [15]:
# Проверка столбцов
display(df['children'].value_counts())
display(df['dob_years'].value_counts())
display(df['education_id'].value_counts())
display(df['family_status'].value_counts())
display(df['gender'].value_counts())
display(df['income_type'].value_counts())
display(df['debt'].value_counts())
display(df['purpose'].value_counts())
display(df['total_income'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
студент                1
в декрете              1
Name: income_type, dtype: int64

0    19784
1     1741
Name: debt, dtype: int64

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

145017.937533    2175
106196.235958       1
45654.214129        1
132775.748481       1
127240.919486       1
                 ... 
239154.168013       1
165009.733021       1
94270.049769        1
68166.012050        1
189255.286637       1
Name: total_income, Length: 19351, dtype: int64

В столбце gender есть одна ошибка "XNA", это не окажет сильного результата на иследование. В столбце "children" количество детей -1 и 20, чего быть не может.

In [16]:
# Исправление значений в стобце children
df['children'] = df['children'].astype('str')
df.loc[df['children'] == '20', 'children'] = '2'
df['children'] = df['children'].astype('int')
df['children'] = df['children'].abs()
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

### Шаг 2.3. Изменение типов данных.

In [17]:
# Заменим вещественный тип данных в столбце total_income на целочисленный
df['total_income'] = df['total_income'].astype('float32')
df['days_employed'] = df['days_employed'].astype('float32')

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float32
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float32
 11  purpose           21525 non-null  object 
dtypes: float32(2), int64(5), object(5)
memory usage: 1.8+ MB


### Шаг 2.4. Удаление дубликатов.

In [19]:
# подсчёт явных дубликатов
df.duplicated().sum()

54

In [20]:
# Просмотр уникальных уровней образования
df['education'].sort_values().unique()

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

In [21]:
# Приведем все строки в столбце 'education' к нижднем регистру
df['education'] = df['education'].str.lower()

In [22]:
# Проверка на уникальные значения
df['education'].sort_values().unique()

array(['высшее', 'начальное', 'неоконченное высшее', 'среднее',
       'ученая степень'], dtype=object)

Можно сделать вывод, что дубликаты были из-за разного регистра. Сначала были выявлены явные дубликаты с помощью duplicated(). Затем были выявлены неявные дубликаты с помощью unique()

In [23]:
# Проверка неявных дубликатов в стобце family_status
df['family_status'].sort_values().unique()

array(['Не женат / не замужем', 'в разводе', 'вдовец / вдова',
       'гражданский брак', 'женат / замужем'], dtype=object)

In [24]:
# Проверка неявных дубликатов в стобце income_type
df['income_type'].sort_values().unique()

array(['безработный', 'в декрете', 'госслужащий', 'компаньон',
       'пенсионер', 'предприниматель', 'сотрудник', 'студент'],
      dtype=object)

In [25]:
# подсчёт явных дубликатов
df.duplicated().sum()

71

In [26]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых)
df = df.drop_duplicates().reset_index(drop=True)

In [27]:
# проверка на отсутствие дубликатов
df.duplicated().sum()

0

In [28]:
# Просмотр исходной таблицы
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим два новых датафрейма, в которых:
каждому уникальному значению из education соответствует уникальное значение education_id — в первом;
каждому уникальному значению из family_status соответствует уникальное значение family_status_id — во втором.
Это делается для того, чтобы в будущих таблицах обращаться уже не к длинной строке, а к её числовому обозначению.

In [29]:
# Создание таблицы с видом образования и его id
edu_df = df[['education','education_id']]

In [30]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых) 
edu_df = edu_df.drop_duplicates().reset_index(drop=True)

In [31]:
# Просмотр результата
edu_df

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [32]:
# Создание таблицы с семейным статусом и его id
family_df = df[['family_status','family_status_id']]

In [33]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых) 
family_df = family_df.drop_duplicates().reset_index(drop=True)

In [34]:
family_df

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [35]:
# удаление столбцов из исходной таблицы
df = df.drop(['family_status', 'education'], axis = 1)

### Шаг 2.6. Категоризация дохода.

На основании диапазонов, указанных ниже, создадим столбец total_income_category с категориями:
0–30000 — 'E';
30001–50000 — 'D';
50001–200000 — 'C';
200001–1000000 — 'B';
1000001 и выше — 'A'.

In [36]:
# Создание функции категоризации дохода, которая на вход принимает значения из стобца 'total_income' и возвращает категорию
def cat_income(income):
    if 0 <= income <= 30000:
        return 'E'
    elif 30001 <= income <= 50000:
        return 'D'
    elif 50001 <= income <= 200000:
        return 'C'
    elif 200001 <= income <= 1000000:
        return 'B'
    elif income >= 1000001:
        return 'A'
    return 'Укажите корректный доход'


In [37]:
# Создадим новый столбец и запишем в него результат применения функции cat_income к столбцу 'total_income'
df['total_income_category'] = df['total_income'].apply(cat_income)

In [38]:
# Просмотр результата
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.672852,42,0,0,F,сотрудник,0,253875.640625,покупка жилья,B
1,1,4024.803711,36,1,0,F,сотрудник,0,112080.015625,приобретение автомобиля,C
2,0,5623.422852,33,1,0,M,сотрудник,0,145885.953125,покупка жилья,C
3,3,4124.74707,32,1,0,M,сотрудник,0,267628.5625,дополнительное образование,B
4,0,17013.302734,53,1,1,F,пенсионер,0,158616.078125,сыграть свадьбу,C


### Шаг 2.7. Категоризация целей кредита.

Создадим функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:
'операции с автомобилем',
'операции с недвижимостью',
'проведение свадьбы',
'получение образования'.

In [39]:
# Просмотр целей кредитов
df['purpose'].sort_values().unique()

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

In [40]:
# Создание функции категоризации цели кредита, которая на вход принимает значения из стобца 'purpose' и возвращает категорию
def purpose_group(category):
    if 'автомобил' in category:
        return 'операции с автомобилем'
    elif ('недвижимост' in category) or ('жиль' in category):
        return 'операции с недвижимостью'
    elif 'свадьб' in category:
        return 'проведение свадьбы'
    elif 'образован' in category:
        return 'получение образования'
df['purpose_category'] = df['purpose'].apply(purpose_group)

### Ответы на вопросы.

##### Вопрос 1:

Создадим сводную таблицу с количеством детей и наличием просрочки по кредиту и найдем процент должников

In [41]:
children_debt = df.pivot_table(index=['children'], columns=['debt'], aggfunc=['count','sum','mean'])
children_debt['%_debt'] = children_debt['count']['days_employed'][1] / (children_debt['count']['days_employed'][0] 
                                                                        + children_debt['count']['days_employed'][1])
display(children_debt)

Unnamed: 0_level_0,count,count,count,count,count,count,count,count,count,count,...,mean,mean,mean,mean,mean,mean,mean,mean,mean,%_debt
Unnamed: 0_level_1,days_employed,days_employed,dob_years,dob_years,education_id,education_id,family_status_id,family_status_id,gender,gender,...,days_employed,dob_years,dob_years,education_id,education_id,family_status_id,family_status_id,total_income,total_income,Unnamed: 21_level_1
debt,0,1,0,1,0,1,0,1,0,1,...,1,0,1,0,1,0,1,0,1,Unnamed: 21_level_2
children,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3,Unnamed: 19_level_3,Unnamed: 20_level_3,Unnamed: 21_level_3
0,13028.0,1063.0,13028.0,1063.0,13028.0,1063.0,13028.0,1063.0,13028.0,1063.0,...,4497.44043,46.495855,43.0,0.825223,0.900282,1.111759,1.260583,163410.609375,160193.859375,0.075438
1,4410.0,445.0,4410.0,445.0,4410.0,445.0,4410.0,445.0,4410.0,445.0,...,2241.438721,38.602268,36.559551,0.773469,0.92809,0.798866,0.905618,169072.40625,163309.328125,0.091658
2,1926.0,202.0,1926.0,202.0,1926.0,202.0,1926.0,202.0,1926.0,202.0,...,1927.446899,36.057632,35.29703,0.773105,0.960396,0.459502,0.509901,169572.671875,164651.265625,0.094925
3,303.0,27.0,303.0,27.0,303.0,27.0,303.0,27.0,303.0,27.0,...,2364.405029,36.313531,36.0,0.815182,0.925926,0.389439,0.555556,181796.234375,148766.984375,0.081818
4,37.0,4.0,37.0,4.0,37.0,4.0,37.0,4.0,37.0,4.0,...,1589.043945,35.72973,39.0,0.756757,1.0,0.459459,1.0,166611.765625,162394.8125,0.097561
5,9.0,,9.0,,9.0,,9.0,,9.0,,...,,38.777778,,1.222222,,0.222222,,167606.703125,,


##### Вывод 1:

Чем больше детей в семье, тем выше процент должников

##### Вопрос 2:

Создадим сводную таблицу с идентификатором семейного статуса и наличием просрочки по кредиту, обратимся к ранее созданному словарю с идентификатором, объединим эти таблицы и найдём зависимость между семейным статусом и наличием просрочки по кредиту

In [42]:
fam_status_debt = df.pivot_table(index=['family_status_id'], columns=['debt'], aggfunc='count')['days_employed']
fam_status_debt['%_debt'] = fam_status_debt[1] / (fam_status_debt[0] + fam_status_debt[1])
data_fam = family_df.merge(fam_status_debt, on='family_status_id', how='left').drop('family_status_id', axis = 1)
display(data_fam)

Unnamed: 0,family_status,0,1,%_debt
0,женат / замужем,11408,931,0.075452
1,гражданский брак,3763,388,0.093471
2,вдовец / вдова,896,63,0.065693
3,в разводе,1110,85,0.07113
4,Не женат / не замужем,2536,274,0.097509


##### Вывод 2:

Зависимость есть: среди одиноких людей, которые уже были в браке, процент должников ниже, чем у тех кто состоит в браке или не состоял

##### Вопрос 3:

Создадим сводную таблицу с категорией дохода и наличием просрочки по кредиту и найдем процент должников

In [43]:
income_status_debt = df.pivot_table(index=['total_income_category'], columns=['debt'], aggfunc='count')['days_employed']
income_status_debt['%_debt'] = income_status_debt[1] / (income_status_debt[0] + income_status_debt[1])
display(income_status_debt)

debt,0,1,%_debt
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,23,2,0.08
B,4685,356,0.070621
C,14656,1360,0.084915
D,329,21,0.06
E,20,2,0.090909


##### Вывод 3:

Самый низкий процент должников у людей с доходом от 30001 до 50000, самый высокий у самых бедных с доходом менее 30000. Меньше всего кредитов взяли самые бедные и самые богатые. Больше всего кредитов у среднего класса с доходом от 50001 до 200000

##### Вопрос 4:

Создадим сводную таблицу с категорией цели кредита и наличием просрочки по кредиту и найдем процент должников

In [44]:
aim_debt = df.pivot_table(index=['purpose_category'], columns=['debt'], aggfunc='count')['days_employed']
aim_debt['%_debt'] = aim_debt[1] / (aim_debt[0] + aim_debt[1])
display(aim_debt)

debt,0,1,%_debt
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3903,403,0.09359
операции с недвижимостью,10029,782,0.072334
получение образования,3643,370,0.0922
проведение свадьбы,2138,186,0.080034


##### Вывод 4:

Самый высокий процент должников среди тех, кто берёт кредит на операции с автомобилем, самый низкий на операции с недвижимостью

## Общий вывод:

В ходе данного иследования были выполнены следующие действия: предобработка данных (удаление дубликатов явных и неявных, заполение пропущенных значений, исправление аномальных данных), типизация и категоризация данных.
В ходе анализа полученных данных был сделан вывод, что на погашение кредита в срок вляет множество факторов: количество детей в семье, цель кредита, ежемесячный доход, семейное положение. Соответственно, при построении скоринговой модели особое внимание стоит уделить количеству детей в семье, ежемесячному доходу, семейному положению и цели кредита.
