# Исследование надежности заемщиков.

<div class="alert alert-info">
    <b>Описание проекта:</b>
<br>Задача проекта: узнать влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.
<br>Промежуточные задачи: проверить и провести предварительную обработку данных.
<br>Исходные данные: входные данные от банка — статистика о платёжеспособности клиентов.
<br>Описание данных:
<ul>
    <li> children — количество детей в семье
    <li> days_employed — общий трудовой стаж в днях
    <li> dob_years — возраст клиента в годах
    <li> education — уровень образования клиента
    <li> education_id — идентификатор уровня образования
    <li> family_status — семейное положение
    <li> family_status_id — идентификатор семейного положения
    <li> gender — пол клиента
    <li> income_type — тип занятости
    <li> debt — имел ли задолженность по возврату кредитов
    <li> total_income — ежемесячный доход
    <li> purpose — цель получения кредита
</ul>
</div>

### Шаг 1. Обзор данных

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('datasets/data.csv')

### Шаг 2.1 Заполнение пропусков

<div class="alert alert-info">
Сперва знакомлюсь с df:
</div>

In [3]:
display(df.head()) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [5]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


<div class="alert alert-info">
    <b>Вывод:</b><br>
    
После первого ознакомления с df можно заметить, что:<br>
* в колонках 'days_employed' и 'total_income' есть пропуски;<br>
* Так же в колонке 'days_employed' присутствуют минусовые значения;<br>
* В колонке 'education' значения написаны в разном регистре;<br>
* Значения колонок 'days_employed', 'dob_years' и 'total_income' - количественные. Остальные категориальные.
    
Далее нахожу долю пропусков:
</div>

In [6]:
#написал функцию, которая возвращает долю пропусков
def fraction(column):
    result = column.isna().sum() / len(column)
    return result
try:
    print(f"Доля пропусков в колонке \'days_employed\' составляет: {fraction(df['days_employed']):.0%}")
    print(f"Доля пропусков в колонке \'total_income\' составляет: {fraction(df['total_income']):.0%}")
except:
    print('Проверь параметр функции')
#v1 ВОТ ТУТ
df.isna().mean()

Доля пропусков в колонке 'days_employed' составляет: 10%
Доля пропусков в колонке 'total_income' составляет: 10%


children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

<div class="alert alert-info">
Судя по тому, как были введены данные в колонке 'education' (нижний и верхний регистр), можно предположить что все данные введены в полях в свободной форме.
    
Одна из возможных причин пропусков в данных столбцах - это намеренный пропуск самим пользователем, в виду отсутствия трудового стажа.
    
Для подтверждения или опровержения этой гипотезы сортирую строки датафрейма с пропусками по возрасту:
</div>

In [7]:
display(df.loc[df['days_employed'].isnull()].sort_values(by='dob_years').head(10)) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12403,3,,0,среднее,1,женат / замужем,0,M,сотрудник,0,,операции с коммерческой недвижимостью
6670,0,,0,Высшее,0,в разводе,3,F,пенсионер,0,,покупка жилой недвижимости
2284,0,,0,среднее,1,вдовец / вдова,2,F,пенсионер,0,,недвижимость
6411,0,,0,высшее,0,гражданский брак,1,F,пенсионер,0,,свадьба
19829,0,,0,среднее,1,женат / замужем,0,F,сотрудник,0,,жилье
13741,0,,0,среднее,1,гражданский брак,1,F,сотрудник,0,,на проведение свадьбы
4064,1,,0,среднее,1,гражданский брак,1,M,компаньон,0,,ремонт жилью
1890,0,,0,высшее,0,Не женат / не замужем,4,F,сотрудник,0,,жилье
5014,0,,0,среднее,1,женат / замужем,0,F,компаньон,0,,покупка недвижимости
8574,0,,0,среднее,1,женат / замужем,0,F,сотрудник,0,,недвижимость


<div class="alert alert-warning">
В колонке 'dob_years' (возраст) есть нули.
Выявляю количество строк с нулями в колонке 'dob_years':
</div>

In [8]:
print(
    'Количество нулей в столбце \'dob_years\':',
    len(df[df['dob_years'] == 0])
)

Количество нулей в столбце 'dob_years': 101


<div class="alert alert-info">
    <b> Комментарий студента</b><br>
    
Продолжаем проверять гипотезу о взаимосвязи пропусков данных и отсутствия трудового стажа, выводим датафрейм отбросив пропуски в колонке 'dob_years':
</div>

In [9]:
#задаю переменную, в которой назначено логическое условие для среза
df_notnull = df.loc[df['days_employed'].isnull() & df['dob_years'] != 0] 

display(df_notnull.sort_values(by='dob_years').head(10))


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4052,0,,19,среднее,1,гражданский брак,1,M,сотрудник,0,,на проведение свадьбы
18385,0,,21,среднее,1,гражданский брак,1,F,сотрудник,0,,покупка жилья для сдачи
763,0,,21,среднее,1,гражданский брак,1,M,компаньон,0,,покупка жилья
11354,0,,21,Высшее,0,гражданский брак,1,M,компаньон,0,,автомобили
10619,0,,21,высшее,0,гражданский брак,1,M,сотрудник,0,,сыграть свадьбу
2606,0,,21,среднее,1,Не женат / не замужем,4,M,сотрудник,0,,операции с коммерческой недвижимостью
18061,0,,21,среднее,1,гражданский брак,1,M,сотрудник,0,,свадьба
17163,0,,21,среднее,1,Не женат / не замужем,4,F,компаньон,1,,на покупку подержанного автомобиля
16312,0,,21,среднее,1,Не женат / не замужем,4,F,сотрудник,0,,жилье
1057,0,,21,НЕОКОНЧЕННОЕ ВЫСШЕЕ,2,Не женат / не замужем,4,M,компаньон,0,,операции с недвижимостью


<div class="alert alert-info">
    
Социальный статус самого молодого клиента является "сотрудник", остальные тоже являются трудоустроенными либо самозанятыми, гипотезу можно опровергнуть. <br>
</div>

<div class="alert alert-info">
    
Проверим есть ли взаимосвязь между пропусками в столбцах days_employed и total_income    
</div>

In [10]:
rows_1 = df['days_employed'].isna() & df['total_income'].notna()
rows_2 = df['days_employed'].isna() & df['total_income'].isna()
rows_3 = df['days_employed'].notna() & df['total_income'].notna()

print('Количество строк, где в days_employed есть пропуски, в total_income нет пропусков:',(df.loc[rows_1]).shape[0])
print('Количество строк, где в days_employed есть пропуски, в total_income есть пропуски:',(df.loc[rows_2]).shape[0])
print('Количество строк, где в days_employed нет пропусков, в total_income нет пропусков:',(df.loc[rows_3]).shape[0])

Количество строк, где в days_employed есть пропуски, в total_income нет пропусков: 0
Количество строк, где в days_employed есть пропуски, в total_income есть пропуски: 2174
Количество строк, где в days_employed нет пропусков, в total_income нет пропусков: 19351


<div class="alert alert-info">
    <b> Вывод:</b><br>
    
В каждой строке если есть пропуски, то они допущены одновременно в обоих колонках. Пропуски образовались скорее всего из за сбоя при выгрузке данных.

    
Далее заменяю пропуски в количественных данных. Т.к. у некоторых людей трудовой стаж и ежемесячный доход может очень сильно различаться от основной части людей, среднеарифметическое значение может сильно исказиться, поэтому пропущенные значения заменим на медиану и проверим. 
</div>

In [11]:
days_employed_median = df['days_employed'].median()
total_income_median = df['total_income'].median()

df['days_employed'] = df['days_employed'].fillna(days_employed_median)
df['total_income'] = df['total_income'].fillna(total_income_median)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Шаг 2.2 Проверка данных на аномалии и исправления.

<div class="alert alert-info">
    
Сперва посчитаем значения со знаком минус в колонке 'days_employed'
</div>

In [12]:
print(df.loc[df['days_employed'] < 0, ['days_employed']].count())


days_employed    18080
dtype: int64


<div class="alert alert-info">
    
БОльшая часть значений со знаком минус. По-моему мнению это связано с тем, что в форме заполнения есть нечто подобное всплывающего окна с календарем, где многие указывают начало временного отрезка текущую дату, а в конце указывают дату самого первого выхода на работу. Таким образом получаются отрицательные значения. <br>
    
Исправим:
</div> 

In [13]:
df['days_employed'] = abs(df['days_employed'])
#проверим:
print(df.loc[df['days_employed'] < 0, ['days_employed']].count())

days_employed    0
dtype: int64


<div class="alert alert-info">
    
Заодно проверим на отрицательные значения в других колонках:

</div> 

In [14]:
columns = ['children', 'dob_years', 'education_id', 'family_status_id', 'debt', 'total_income']

for column in columns:
    column_count = df[df[column] < 0].shape[0]
    if column_count > 0:
        print ('В колонке', column, 'найдены отрицательные значения')
        print()
    else:
        print ('В колонке', column, 'отрицательные значения отсутствуют')
        print()

В колонке children найдены отрицательные значения

В колонке dob_years отрицательные значения отсутствуют

В колонке education_id отрицательные значения отсутствуют

В колонке family_status_id отрицательные значения отсутствуют

В колонке debt отрицательные значения отсутствуют

В колонке total_income отрицательные значения отсутствуют



<div class="alert alert-info">
    
В колонке children найдены отрицательные значения.
Посмотрим какие есть внутри колонки значения:
</div> 

In [15]:
print(df['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


<div class="alert alert-info">
    
Значения 20 и -1 скорее всего опечатка, т.к. нет других значений в диапазоне от 6 до 19
Исправляем:
</div> 

In [16]:
df.loc[df['children'] == 20, 'children'] = 2 
df.loc[df['children'] == -1, 'children'] = 1
print(df['children'].value_counts())

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64


<div class="alert alert-info">
    
Нулевые значения в столбце dob_years заменяем на среднее число возраста сгруппированный по столбцу income_type.<br>
Сперва выведем на экран категории работников с пропуском в столбце возраст и их число:
</div>

In [17]:
df[df['dob_years'] == 0]['income_type'].value_counts()

сотрудник      55
пенсионер      20
компаньон      20
госслужащий     6
Name: income_type, dtype: int64

<div class="alert alert-info">
    
Затем найдем среднее число по этим категориям, которые не равны нулю. Делаем логическую индексацию по двум параметрам, заменим нули и проверим:
</div>

In [18]:
worker_age_mean = df.loc[(df['dob_years'] != 0) & (df['income_type'] == 'сотрудник'), 'dob_years'].mean()
pensioner_age_mean = df.loc[(df['dob_years'] != 0) & (df['income_type'] == 'пенсионер'), 'dob_years'].mean()
companion_age_mean = df.loc[(df['dob_years'] != 0) & (df['income_type'] == 'компаньон'), 'dob_years'].mean()
civil_servant_age_mean = df.loc[(df['dob_years'] != 0) & (df['income_type'] == 'госслужащий'), 'dob_years'].mean()

df.loc[(df['dob_years'] == 0) & (df['income_type'] == 'сотрудник'),'dob_years'] = worker_age_mean
df.loc[(df['dob_years'] == 0) & (df['income_type'] == 'пенсионер'),'dob_years'] = pensioner_age_mean
df.loc[(df['dob_years'] == 0) & (df['income_type'] == 'компаньон'),'dob_years'] = companion_age_mean
df.loc[(df['dob_years'] == 0) & (df['income_type'] == 'госслужащий'),'dob_years'] = civil_servant_age_mean

display(df[df['dob_years'] == 0])

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


### Шаг 2.3. Изменение типов данных.

<div class="alert alert-info">
    
Выведем еще раз info датафрейма:
</div>

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


<div class="alert alert-info">
    <b> Промежуточный итог:</b><br>

* Дробные значения days_employed надо и total_income заменить на целочисленные;<br> 
* После замены нулей в колонке 'dob_years' значения стали дробными.<br>

Исправляем и проверяем:
</div>

In [20]:
df['days_employed'] = df['days_employed'].astype(int)
df['total_income'] = df['total_income'].astype(int)
df['dob_years'] = df['dob_years'].astype(int)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int32 
 2   dob_years         21525 non-null  int32 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int32 
 11  purpose           21525 non-null  object
dtypes: int32(3), int64(4), object(5)
memory usage: 1.7+ MB


<div class="alert alert-info">
    <b> Комментарий студента</b><br>
Выведем на экран:
</div> 

In [21]:
display(df.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


### Шаг 2.4. Удаление дубликатов.

<div class="alert alert-info">
Ищем строки-дубликаты:
</div> 

In [22]:
print('Строк-дубликатов:', df.duplicated().sum())

Строк-дубликатов: 54


<div class="alert alert-info">

Удаляем их:
</div> 

In [23]:
df = df.drop_duplicates().reset_index(drop=True)
print('Строк-дубликатов:', df.duplicated().sum())

Строк-дубликатов: 0


<div class="alert alert-info">
Проверим на наличие неявных дубликатов в колонках: education, family_status, income_type(эту колонку по хорошему надо было проверить на этапе замены нулей)
</div> 

In [24]:
display(df['education'].value_counts())

среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [25]:
display(df['family_status'].value_counts())

женат / замужем          12344
гражданский брак          4163
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

In [26]:
display(df['income_type'].value_counts())

сотрудник          11091
компаньон           5080
пенсионер           3837
госслужащий         1457
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

<div class="alert alert-info">
    <b> Вывод:</b><br>
    

* в education есть неявные дубликаты написанные в разном регистре;<br>
* в столбце family_status дубликатов нет;<br>
* в столбце income_type я бы объединил некоторые значения, но думаю по заданию надо оставить. Будем считать что дубликатов нет;<br> 
* в столбце purpose дубликатов много, но они нужны для следующего задания, оставим как есть.
    
применил нижний регистр к значениям в столбце education:
</div>

In [27]:
df['education'] = df['education'].str.lower()
display(df['education'].value_counts())

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

<div class="alert alert-info">
    
Создаю дополнительные датафреймы, удаляю строки дубликаты в них, т.к. эти датафремы будут служить в качестве словарей для идентификации значений образование(education) и семейное положение(family_status) по их id:
</div>

In [28]:
education = df[['education', 'education_id']].drop_duplicates().reset_index(drop=True)
family_status = df[['family_status', 'family_status_id']].drop_duplicates().reset_index(drop=True)

display(education)
display(family_status)

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


<div class="alert alert-info">
    
Удаляю столбцы в датафрейме df education и family_status и проверяю:
</div>

In [29]:
columns = ['children', 'days_employed', 'dob_years', 'education_id', 'family_status_id', 'gender', 'income_type', 'debt', 'total_income', 'purpose']
df = df.loc[:, columns]
display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21471 entries, 0 to 21470
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21471 non-null  int64 
 1   days_employed     21471 non-null  int32 
 2   dob_years         21471 non-null  int32 
 3   education_id      21471 non-null  int64 
 4   family_status_id  21471 non-null  int64 
 5   gender            21471 non-null  object
 6   income_type       21471 non-null  object
 7   debt              21471 non-null  int64 
 8   total_income      21471 non-null  int32 
 9   purpose           21471 non-null  object
dtypes: int32(3), int64(4), object(3)
memory usage: 1.4+ MB


None

### Шаг 2.6. Категоризация дохода.

<div class="alert alert-info">
    
Создаю новый столбец total_income_category с категориями по количеству дохода. Для этого сперва напишу функцию, присвою ей значения из столбца total_income и выведу на экран:
</div>

In [30]:
def total_income_category(total_income):
    if total_income <= 30000:
        return 'E'
    if 30001 <= total_income <= 50000:
        return 'D'
    if 50001 <= total_income <= 200000:
        return 'C'
    if 200001 <= total_income <= 1000000:
        return 'B'
    return 'A'
df['total_income_category'] = df['total_income'].apply(total_income_category)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


### Шаг 2.7. Категоризация целей кредита.

<div class="alert alert-info">
    
Выведем на экран значения столбца purpose:
</div>

In [31]:
display(df['purpose'].value_counts())

свадьба                                   793
на проведение свадьбы                     773
сыграть свадьбу                           769
операции с недвижимостью                  675
покупка коммерческой недвижимости         662
покупка жилья для сдачи                   652
операции с жильем                         652
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          625
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

In [32]:
def purpose_category(purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'
    if 'недвижим' in purpose:
        return 'операции с недвижимостью'
    if 'жиль' in purpose:
        return 'операции с недвижимостью'
    if 'свадьб' in purpose:
        return 'проведение свадьбы'
    return 'получение образования'
df['purpose_category'] = df['purpose'].apply(purpose_category)
display(df.tail(15))    


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
21456,2,1203,28,1,0,F,сотрудник,0,145017,приобретение автомобиля,C,операции с автомобилем
21457,0,612,29,0,1,F,сотрудник,1,140068,покупка жилья для сдачи,C,операции с недвижимостью
21458,0,165,26,0,4,M,компаньон,0,147301,получение дополнительного образования,C,получение образования
21459,0,1166,35,1,0,F,сотрудник,0,250986,покупка жилья,B,операции с недвижимостью
21460,0,280,27,2,4,M,компаньон,0,355988,строительство недвижимости,B,операции с недвижимостью
21461,1,467,28,1,0,F,сотрудник,1,109486,заняться образованием,C,получение образования
21462,0,914,42,0,0,F,компаньон,0,322807,покупка своего жилья,B,операции с недвижимостью
21463,0,404,42,0,1,F,компаньон,0,178059,на покупку своего автомобиля,C,операции с автомобилем
21464,0,373995,59,1,0,F,пенсионер,0,153864,сделка с автомобилем,C,операции с автомобилем
21465,1,2351,37,4,3,M,сотрудник,0,115949,покупка коммерческой недвижимости,C,операции с недвижимостью


### Ответы на вопросы.

##### Вопрос 1 "Есть ли зависимость между количеством детей и возвратом кредита в срок?":

In [33]:
def debt_range(debt):
    return sum(debt)/len(debt)

df_children_pivot = df.pivot_table(
    index='children', 
    values='debt', 
    aggfunc=['count', 'sum', debt_range]
)
df_children_pivot.columns = ['всего клиентов', 'должников', 'доля должников']
df_children_pivot.sort_values('доля должников')

Unnamed: 0_level_0,всего клиентов,должников,доля должников
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,9,0,0.0
0,14107,1063,0.075353
3,330,27,0.081818
1,4856,445,0.091639
2,2128,202,0.094925
4,41,4,0.097561


<div class="alert alert-info">
    <b> Комментарий студента</b><br>
    
После подсчета доли клиентов с просрочками видно что взаимосвязь есть. Клиенты с 5 детьми хоть и не имеют просрочек, но их общее количество не позволяет объективно оценить ситуацию.
</div>

##### Вопрос2 "Есть ли зависимость между семейным положением и возвратом кредита в срок?":

In [34]:
df_family_status_pivot = df.pivot_table(
    index='family_status_id', 
    values='debt', 
    aggfunc=['count', 'sum', debt_range]
)
df_family_status_pivot.columns = ['всего клиентов', 'должников', 'доля должников']
df_family_status_pivot.merge(family_status, on='family_status_id').sort_values('доля должников')

Unnamed: 0,family_status_id,всего клиентов,должников,доля должников,family_status
2,2,959,63,0.065693,вдовец / вдова
3,3,1195,85,0.07113,в разводе
0,0,12344,931,0.075421,женат / замужем
1,1,4163,388,0.093202,гражданский брак
4,4,2810,274,0.097509,Не женат / не замужем


<div class="alert alert-info">
    <b> Комментарий студента</b><br>
    
Меньше всего долгов у вдовцов/вдов, у женатых и в разводе примерно одинаковая доля, а у не женатых больше всего долгов.
</div>

##### Вопрос3 "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?":

In [35]:
df_total_income_pivot = df.pivot_table(
    index='total_income_category', 
    values='debt', 
    aggfunc=['count', 'sum', debt_range]
)
df_total_income_pivot.columns = ['всего клиентов', 'должников', 'доля должников']
df_total_income_pivot.sort_values('доля должников')

Unnamed: 0_level_0,всего клиентов,должников,доля должников
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,350,21,0.06
B,5041,356,0.070621
A,25,2,0.08
C,16033,1360,0.084825
E,22,2,0.090909


<div class="alert alert-info">
    <b> Комментарий студента</b><br>
    
Взаимосвязи между уровнем дохода и возвратом кредита в срок не обнаружил
</div>

##### Вопрос4 "Как разные цели кредита влияют на его возврат в срок?":

In [36]:
df_purpose_category_pivot = df.pivot_table(
    index='purpose_category', 
    values='debt', 
    aggfunc=['count', 'sum', debt_range]
)
df_purpose_category_pivot.columns = ['всего клиентов', 'должников', 'доля должников']
df_purpose_category_pivot.sort_values('доля должников')

Unnamed: 0_level_0,всего клиентов,должников,доля должников
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,10814,782,0.072314
проведение свадьбы,2335,186,0.079657
получение образования,4014,370,0.092177
операции с автомобилем,4308,403,0.093547


<div class="alert alert-info">
    <b> Комментарий студента</b><br>
    
Категория кредитов "операции с недвижимостью" имеет меньшую долю задолженностей. Больше всего задолженностей в категории "операции с автомобилем"
</div>

## Общий вывод:

<div class="alert alert-info">
    <b> Комментарий студента</b><br>
    
* в исходном датафрейме не хватает id клиента;
* при выгрузке из базы данных возможно произошел сбой, т.к. присутствую пропуски одновременно и в колонке days_employed и в колонке total_income; 
* у клиентов с детьми больше доля задолженности, чем у клиентов с детьми. Есть еще странная зависимость: у тех у кого 3-е детей, задолженностей меньше чем у клиентов с 1 или 2-мя детьми. На это могло повлиять социальные меры поддержки многодетным семьям (в РФ семья с 3-я и более детьми считается многодетной);
* семейное положение также взаимосвязано с возвратом в срок кредита;
* уровень дохода не влияет на возврат в срок. По-моему мнению это связано с тем, что у людей с повышением уровня дохода, повышается и уровень расходов;
* цели взятия кредита также в процентом соотношении влияют на возврат кредита в срок, т.к. к приобретению недвижимости люди относятся более ответственно, чем с кредитом на образование.
</div>