# Исследование надёжности заёмщиков

**Описание проекта:**
    
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

**Цель исследования:**

Выяснить, есть ли зависимость между семейным положением, количеством детей и погашением кредита в срок.

**Ход исследования:**

1. Импорт библиотек
2. Анализ данных
3. Предобработка данных
4. Исследование предобработанных данных
5. Результаты исследования


In [1]:
# Импорт библиотеки pandas
import pandas as pd

In [2]:
# Чтение csv-файла и сохранение в переменной
data = pd.read_csv('data.csv')

In [3]:
# Вывод первых 20-ти строчек датафрейма на экран
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
# Вывод основной информации о датафрейме
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

In [5]:
# Вывод количества пропущенных значений для каждого столбца
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [6]:
# Заполнение пропусков медианными значениями по каждому типу из столбца income_type
type = data['income_type'].unique()
for ind in type:
    med_income = data.loc[data['income_type'] == ind]['total_income'].median()
    data.loc[data['income_type'] == ind, 'total_income'] = data.loc[data['income_type'] == ind]['total_income'].fillna(med_income)

### Обработка аномальных значений

In [7]:
# Замена всех отрицательных значений положительными
data['days_employed'] = data['days_employed'].abs()

In [8]:
# Вывод медианного значения трудового стажа в днях для каждого типа занятости
data.groupby('income_type')['days_employed'].median()

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

In [9]:
# Вывод уникальных значений столбца children
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [10]:
# Удаление строк, в которых встречаются аномальные значения
data = data.loc[(data['children'] != 20)&(data['children'] != -1)]

In [11]:
# Проверка уникальных значений
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

In [12]:
# Заполнение пропусков в столбце days_employed медианными значениями по каждому типу занятости
inc_type = data['income_type'].unique()
for ind in inc_type:
    med_inc = data.loc[data['income_type'] == ind]['days_employed'].median()
    data.loc[data['income_type'] == ind, 'days_employed'] = data.loc[data['income_type'] == ind]['days_employed'].fillna(med_inc)

In [13]:
# Проверка отсутствия пропусков
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

In [14]:
# Замена вещественного типа данных в столбце total_income на целочисленный
data['total_income'] = data['total_income'].astype(int)

In [15]:
# Обработка неявных дубликатов в столбце education
data['education'] = data['education'].str.lower()

In [16]:
# Подсчёт дубликатов
data.duplicated().sum()

71

In [17]:
# Удаление дубликатов
data.drop_duplicates()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


### Категоризация данных

In [18]:
# Создание функции categorize_income()
def categorize_income(income):
        if income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'

In [19]:
# Создание нового столбца
data['total_income_category'] = data['total_income'].apply(categorize_income)

In [20]:
# Вывод на экран перечня уникальных целей взятия кредита
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [21]:
# Создание функции categorize_purpose()
def categorize_purpose(row):
    if 'авто' in row:
        return 'операции с автомобилем'
    elif 'жиль' in row:
        return 'операции с недвижимостью'
    elif 'недвиж' in row:
        return 'операции с недвижимостью'
    elif 'свад' in row:
        return 'проведение свадьбы'
    elif 'образов' in row:
        return 'получение образования'

In [22]:
# Создание нового столбца
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

## Исследование данных

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [23]:
#Разделение заёмщиков на категории.
def child_debt(row):
    child = row['children']
    debt = row['debt']
    
    if child == 0 and debt == 0:
        return 'Плательщики без детей'
    if 1 <= child <=5 and debt == 0:
        return 'Плательщики с детьми'
    if child == 0 and debt == 1:
        return 'Должники без детей'
    if 1 <= child <=5 and debt == 1:
        return 'Должники с детьми' 
#Проверка работы функции:
row_val = [4, 1]
row_col = ['children', 'debt']
row = pd.Series(data=row_val, index=row_col)
print(child_debt(row))

Должники с детьми


In [24]:
#Добавление в датафрейм нового столбца и подсчёт количества значений по категориям:
data['child_debt'] = data.apply(child_debt, axis=1)
data['child_debt'].value_counts()

Плательщики без детей    13086
Плательщики с детьми      6584
Должники без детей        1063
Должники с детьми          669
Name: child_debt, dtype: int64

Из результата видно, что плательщиков без детей практически в два раза больше, чем с детьми. Также разница между количеством должников без детей и с детьми соответствует разнице между плательщиками.

In [25]:
#Группировка данных по количеству детей и подсчёт среднего значения долгов
data.groupby('children')['debt'].mean()
data_pivot = data.pivot_table(index='children', values='debt', aggfunc=['sum', 'count', 'mean'])
data_pivot = data_pivot.rename(columns={'mean':'среднее', 'count':'количество_записей', 'sum':'количество_должников'})
display(data_pivot)

Unnamed: 0_level_0,количество_должников,количество_записей,среднее
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14149,0.075129
1,444,4818,0.092154
2,194,2055,0.094404
3,27,330,0.081818
4,4,41,0.097561
5,0,9,0.0


**Вывод:**     
Зависимость между количеством детей и возвратом кредита в срок есть. Самыми платёжеспособными являются заёмщики без детей. Вероятно, такие заёмщики более ответственно подходят к выплате кредита и ведению бюджета, так как у них нет дополнительных трат на детей. В то же время, самыми неплатёжеспособными являются заёмщики с четыремя детьми. Возможно, они берут кредит один раз и им не понадобится в будущем хорошая кредитная история, также, как и заёмщикам с одним или двумя детьми. Заёмщики с тремя детьми намного ответственнее подходят к выплате кредита. Скорее всего им понадобится хорошая кредитная история в будущем, либо они просто ответственнее остальных заёмщиков с детьми.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [26]:
#Группировка данных по семейному положению и подсчёт среднего значения долгов
data.groupby('family_status')['debt'].mean()
data_stat = data.pivot_table(index='family_status', values='debt', aggfunc=['sum', 'count', 'mean'])
data_stat = data_stat.rename(columns={'mean':'среднее', 'count':'количество_записей', 'sum':'количество_должников'})
display(data_stat)

Unnamed: 0_level_0,количество_должников,количество_записей,среднее
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,273,2799,0.097535
в разводе,84,1189,0.070648
вдовец / вдова,63,952,0.066176
гражданский брак,385,4160,0.092548
женат / замужем,927,12302,0.075354


**Вывод:**     
Самыми ответственными в выплате кредита являются вдовцы и вдовы. Недалеко от них ушли разведённые и женатые/замужние. Безответственно относятся к выплате холостые и находящиеся в гражданском браке.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [27]:
# Категоризация данных по уровню дохода
def new_categorize_income(inc):
    try:
        if 0 <= inc <= 120000:
            return 'Средний'
        elif 120001 <= inc <= 200000:
            return 'Выше среднего'
        elif 200001 <= inc <= 10000000:
            return 'Высокий'
    except:
        pass

#Добавление нового столбца
data['new_total_income_category'] = data['total_income'].apply(new_categorize_income)

# Определение зависимости между уровнем дохода и возвратом кредита в срок
data.groupby('new_total_income_category')['debt'].mean()
data_income = data.pivot_table(index='new_total_income_category', values='debt', aggfunc=['sum', 'count', 'mean'])
data_income = data_income.rename(columns={'mean':'среднее', 'count':'количество_записей', 'sum':'количество_должников'})
display(data_income)

Unnamed: 0_level_0,количество_должников,количество_записей,среднее
Unnamed: 0_level_1,debt,debt,debt
new_total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Высокий,356,5039,0.070649
Выше среднего,791,9140,0.086543
Средний,585,7223,0.080991


**Вывод:**     
Из таблицы видно, что самыми платёжеспособными являются заёмщики с высоким доходом, на втором месте - заёмщики со средним доходом и хуже всего выплачивают кредит заёмщики с доходом выше среднего. 

### Как разные цели кредита влияют на его возврат в срок?

In [28]:
#Группировка данных по цели кредитования и подсчёт среднего значения долгов
data.groupby('purpose_category')['debt'].mean()
data_purpose = data.pivot_table(index='purpose_category', values='debt', aggfunc=['sum', 'count', 'mean'])
data_purpose = data_purpose.rename(columns={'mean':'среднее', 'count':'количество_записей', 'sum':'количество_должников'})
display(data_purpose)

Unnamed: 0_level_0,количество_должников,количество_записей,среднее
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,400,4288,0.093284
операции с недвижимостью,780,10780,0.072356
получение образования,369,3997,0.092319
проведение свадьбы,183,2337,0.078306


**Вывод:**     
Лучше всего выплачивают кредит, взятый на операции с недвижимостью и на проведение свадьбы. Кредит на свадьбу можно погасить подаренными деньгами, к тому же вдвоём выплачивать кредит легче, чем одному. Недвижимость чаще всего берут семьи, так что, тут тоже вдвоём бует проще. Да и есть мотивация, что квартиру заберёт банк, если не погасить долг вовремя.

### Возможные причины появления пропусков в исходных данных.

1. Человеческий фактор - при внесении данных могли пропустить значение
2. Заёмщик специально не указал эти данные
3. Сбой при выгрузке данных

### Почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

Разница между минимальным и максимальным значениями может быть огромной и, из-за этого, среднее значение не будет показательным. 

## Общий вывод

Надо было определить зависимость возврата кредита в срок от таких параметров, как: количество детей, уровень дохода, семейное положение и цели кредита.
    
В реультате исследования выяснилось, что зависимость есть у всех категорий:
1. Лучше всего выплачивают кредит заёмщики без детей, либо с тремя детьми
2. Холстые и находящиеся в гражданском браке хуже выплачивают кредит
3. Наиболее платёжеспособными являются заёмщики со средним доходом
4. Операции с недвижимостью и проведение свадьбы - самые надёжные цели кредита