# Проект "Исследование надёжности заёмщиков"

Данный проект был выполнен в ходе обучения в Яндекс.Практикуме. Профессии "Аналитик данных" / "Специалист по Data Science".

# Описание проекта

В этом проекте предстоит разобраться влияет ли семейное положение, количество детей клиента банка на факт погашения кредита в срок. Результаты исследования будут учтены при построении модели **кредитного скоринга** — системы оценки кредитоспособности (кредитных рисков) лица, основанной на численных статистических методах. Исходные данные — статистика о платёжеспособности клиентов. 

# Цель исследования

- Определить есть ли завсисимость между количеством детей и возвратом кредита в срок;
- Определить есть ли зависимость между семейным положением и возвратом кредита в срок;
- Определить есть ли зависимость между уровнем дохода и возвратом кредита в срок;
- Исследовать как цели, для которых берется кредит, влияют на его возврат в срок.

# Задачи исследования

- Обзор данных;
- Предобработка данных;
- Создание вспомогательных датафреймов;
- Создание функций для формирования столбцов таблиц по определенным условиям.

# Исходные данные

Таблица "reliability_of_borrowers"

- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

## Используемые библиотеки

## Обзор данных

### Импорт библиотеки

In [2]:
import pandas as pd

### Выгрузка и анализ датасета с исходными данными

In [3]:
data = pd.read_csv('C:/Dev/Jupyter/dist/projects/datasets/reliability_of_borrowers/reliability_of_borrowers.csv')
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод**

Анализ общей информации о датафрейме, наряду с количеством строк, столбцов, типа данных, наглядно показал наличие пропусков в столбцах 'days_employed' и 'total_income'.

## Предобработка данных

### Обработка пропусков

In [2]:
#обработаем пропуски в столбце 'days_employed'

print('Кол-во пропусков до обработки days_employed:',data['days_employed'].isna().sum())
print('')
data.loc[data['days_employed'].isna(), 'days_employed'] = data['days_employed'].median()
print('Кол-во пропусков после обработки days_employed:',data['days_employed'].isna().sum())

print('')
#обработаем пропуски в столбце 'total_income'

print('Кол-во пропусков до обработки total_income:', data['total_income'].isna().sum())
print('')
data.loc[data['total_income'].isna(), 'total_income'] = data['total_income'].median()
print('Кол-во пропусков после обработки total_income:', data['total_income'].isna().sum())
print('')
#убедимся в отсутствии пропусков 
data.info()

Кол-во пропусков до обработки days_employed: 2174

Кол-во пропусков после обработки days_employed: 0

Кол-во пропусков до обработки total_income: 2174

Кол-во пропусков после обработки total_income: 0

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [6]:
# код для проверки
data['total_income'] = data['total_income'].fillna(
        data.groupby(['gender', 'family_status_id', 'education'])['total_income'].transform(func='median')
    ).round(2)
print('Пропусков:', data['total_income'].isna().sum())
data['total_income'] = data['total_income'].fillna(data['total_income'].median()).round(2)
print('Пропусков:', data['total_income'].isna().sum())

Пропусков: 1
Пропусков: 0


**Вывод**

Анализ общей информации о датафрейме, наряду с количеством строк, столбцов, типа данных, наглядно показал наличие пропусков в столбцах 'days_employed' и 'total_income'. Возможной причиной появления пропуска в данных может быть отсутствие данных у клиента при его анкетировании. Пропуски заполнены медианными значениями без учета групп посредством функции loc.

### Замена типа данных

In [4]:
#перевод значений столбца 'days_employed' из вещественного типа данных в целочисленный
data['days_employed'] = data['days_employed'].astype('int')

#перевод значений столбца 'total_income' из вещественного типа данных в целочисленный
data['total_income'] = data['total_income'].astype('int')

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


**Вывод**

Метод изменения типа данных .astype() выглядит наиболее лаконичным для решения данной задачи.

### Обработка дубликатов

In [5]:
data[data.duplicated(keep = False)].sort_values(by = list(data.columns))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
15892,0,-1203,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,145017,сделка с подержанным автомобилем
19321,0,-1203,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,145017,сделка с подержанным автомобилем
3452,0,-1203,29,высшее,0,женат / замужем,0,M,сотрудник,0,145017,покупка жилой недвижимости
18328,0,-1203,29,высшее,0,женат / замужем,0,M,сотрудник,0,145017,покупка жилой недвижимости
520,0,-1203,35,среднее,1,гражданский брак,1,F,сотрудник,0,145017,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
9238,2,-1203,34,среднее,1,женат / замужем,0,F,сотрудник,0,145017,покупка жилья для сдачи
9013,2,-1203,36,высшее,0,женат / замужем,0,F,госслужащий,0,145017,получение образования
14432,2,-1203,36,высшее,0,женат / замужем,0,F,госслужащий,0,145017,получение образования
11033,2,-1203,39,среднее,1,гражданский брак,1,F,сотрудник,0,145017,сыграть свадьбу


In [7]:
# код для проверки
data = data.drop_duplicates().reset_index()
print(data.duplicated().sum())

0


**Вывод**

Для удаления дубликатов в данных использовал предназначенный для этой операции метод. Причиной некорректных данных и наличия дубликатов мог послужить человеческий фактор, обусловленный отсутствием инструкции или рекомендаций по заполнению конкретной формы для клиента банка.

### Лемматизация

In [8]:
from pymystem3 import Mystem#обращение к библиотеке pymystem3
m = Mystem()
lemmas = m.lemmatize(' '.join(data['purpose'].unique()))#лемматизация слов столбца 'purpose'

from collections import Counter#обращение к счетчику
print(Counter(lemmas))

def credit_category(purpose):#обработка слов целей кредита, определение в категории 
    purp_lem = m.lemmatize(purpose)
    if 'недвижимость' in purp_lem or 'жилье' in purp_lem:
        return 'недвижимость'
    if 'автомобиль' in purp_lem:
        return 'автомобиль'
    if 'образование' in purp_lem:
        return 'образование'
    if 'свадьба' in purp_lem:
        return 'свадьба'
    return 'прочее'
data['category'] = data['purpose'].apply(credit_category)#результат функции присваиваем новому столбцу
data.groupby('category')['category'].count()

Counter({' ': 96, 'покупка': 10, 'недвижимость': 10, 'автомобиль': 9, 'образование': 9, 'жилье': 7, 'с': 5, 'операция': 4, 'на': 4, 'свой': 4, 'свадьба': 3, 'строительство': 3, 'получение': 3, 'высокий': 3, 'дополнительный': 2, 'для': 2, 'коммерческий': 2, 'жилой': 2, 'подержать': 2, 'заниматься': 2, 'сделка': 2, 'приобретение': 1, 'сыграть': 1, 'проведение': 1, 'семья': 1, 'собственный': 1, 'со': 1, 'профильный': 1, 'сдача': 1, 'ремонт': 1, '\n': 1})


category
автомобиль       4308
недвижимость    10814
образование      4014
свадьба          2335
Name: category, dtype: int64

**Вывод**

Для проведения лемматизации целей кредита обратимся к одной из библиотек с функцией лемматизации на русском языке — pymystem3. Результат лемматизации склеим вызовом метода join(). Для подсчета числа лемматизированных слов необходимо вызвать специальный контейнер Counter из модуля collections. Для унификации целей кредита стоит создать функцию, результат выполнения которой будет присвоен новому столбцу 'category' в таблице 'data'. Иными словами, при введении той или иной цели кредита в систему ей будет присвоена категория.

### Категоризация данных

In [9]:
def l_income(value):#функция для категоризации по уровню дохода
    if value < 100000:
        return 'низкий уровень дохода'
    
    if (value >= 100000) & (value < 250000):
        return 'средний уровень дохода'
    
    if (value >= 250000) & (value < 500000):
        return 'доход выше среднего'
    
    return 'высокий доход'

data['income_level'] = data['total_income'].apply(l_income)
data['income_level'].value_counts()

#категоризация по уровню дохода посредством функции qcut
data['income_level'] = pd.qcut(data['total_income'], [0, 0.25, 0.5, 0.75, 1], labels = ['низкий доход', 'средний доход', 'выше среднего', 'высокий доход'])
data['income_level'].value_counts()

#категоризация по семейному статусу
data[['family_status_id', 'family_status']].drop_duplicates().set_index('family_status_id')

#категоризация по уровню образования
data['education'] = data['education'].str.lower()
data['education'].value_counts()
data = data.dropna().reset_index(drop=True)
data[['education_id', 'education']].drop_duplicates().set_index('education_id')

#категоризация по целям кредита
def credit_category(purpose):
    purp_lem = m.lemmatize(purpose)
    if 'недвижимость' in purp_lem or 'жилье' in purp_lem:
        return 'недвижимость'
    
    if 'автомобиль' in purp_lem:
        return 'автомобиль'
    
    if 'образование' in purp_lem:
        return 'образование'
    
    if 'свадьба' in purp_lem:
        return 'свадьба'
    
    return 'прочее'

data['category_cred'] = data['purpose'].apply(credit_category)
display(data.groupby('category')['category_cred'].count())

#категоризация по возрасту
def l_income(value):
    if value < 18:
        return 'дети'
    
    if (value >= 18) & (value <= 44):
        return 'молодой возраст'
    
    if (value >= 45) & (value <= 59):
        return 'средний возраст'
    
    if (value >= 60) & (value <= 74):
        return 'пожилой возраст'
    
    if (value >= 75) & (value <= 90):
        return 'старческий возраст'

#data['age'] = data['dob_years'].apply(l_income)
#data['age'].value_counts()

category
автомобиль       4308
недвижимость    10814
образование      4014
свадьба          2335
Name: category_cred, dtype: int64

In [10]:
# код для проверки
for column in ['income_level', 'education', 'category_cred']:
    display(data[column].value_counts())

средний доход    6428
высокий доход    5368
низкий доход     5368
выше среднего    4307
Name: income_level, dtype: int64

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

недвижимость    10814
автомобиль       4308
образование      4014
свадьба          2335
Name: category_cred, dtype: int64

**Вывод**

Для получения наглядной общей картины о данных фрейма для ответа на дальнейшие вопросы стоит воспользоваться категоризацией, осуществляемой посредством разных методов.

## Ответы на впросы исследования

**Есть ли зависимость между наличием детей и возвратом кредита в срок?**

In [11]:
def l_child(value):
    if value < 1:
        return 'детей нет'
    
    if value > 1:
        return 'дети есть'
    
data['children_def'] = data['children'].apply(l_child)

child_credit = data.pivot_table(index=['children_def'], columns='debt', values='total_income', aggfunc='count')
child_credit.columns = ['no_debt', 'debt']
child_credit = child_credit.fillna(0)
child_credit['percent %'] = child_credit['debt'] / (child_credit['debt'] + child_credit['no_debt'])
display(child_credit.sort_values(by='percent %', ascending=False))


Unnamed: 0_level_0,no_debt,debt,percent %
children_def,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
дети есть,2275,233,0.092903
детей нет,13090,1064,0.075173


**Вывод**

Когорта "дети есть" чаще обзаводится ещё и долгами по кредиту.

**Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [12]:
family_stat_credit = data.pivot_table(index=['family_status'], columns='debt', values='family_status_id', aggfunc='count')
family_stat_credit.columns = ['no_debt', 'debt']
family_stat_credit['percent %'] = family_stat_credit['debt'] / (family_stat_credit['debt'] + family_stat_credit['no_debt'])
display(family_stat_credit.sort_values(by='percent %', ascending=False))

Unnamed: 0_level_0,no_debt,debt,percent %
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2536,274,0.097509
гражданский брак,3775,388,0.093202
женат / замужем,11413,931,0.075421
в разводе,1110,85,0.07113
вдовец / вдова,896,63,0.065693


**Вывод**

Удивительно, однако, когорты "Не женат / не замужем" и "гражданский брак" чаще ходят в должниках нежели все остальные.

**Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [13]:
def l_income(value):#функция для категоризации по уровню дохода
    if value < 100000:
        return 'низкий уровень дохода'
    
    if (value >= 100000) & (value < 250000):
        return 'средний уровень дохода'
    
    if (value >= 250000) & (value < 500000):
        return 'доход выше среднего'
    
    return 'высокий доход'

data['income_level'] = data['total_income'].apply(l_income)

income_stat_credit = data.pivot_table(index=['income_level'], columns='debt', values='total_income', aggfunc='count')
income_stat_credit.columns = ['no_debt', 'debt']
income_stat_credit = income_stat_credit.fillna(0)
income_stat_credit['percent %'] = income_stat_credit['debt'] / (income_stat_credit['debt'] + income_stat_credit['no_debt'])
display(income_stat_credit.sort_values(by='percent %', ascending=False))

Unnamed: 0_level_0,no_debt,debt,percent %
income_level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
средний уровень дохода,13003,1193,0.084038
низкий уровень дохода,4109,354,0.079319
доход выше среднего,2410,180,0.069498
высокий доход,208,14,0.063063


**Вывод**

Странно, но когорта "средний уровень дохода" опережает "низкий уровеь дохода" по проценту задолженностей. Возможно потому, что когорта "средний уровень дохода" склонна переоценивать свои силы, в то время как "низкий уровеь дохода" живет по средствам.

**Как разные цели кредита влияют на его возврат в срок?**

In [14]:
def credit_category(purpose):
    purp_lem = m.lemmatize(purpose)
    if 'недвижимость' in purp_lem or 'жилье' in purp_lem:
        return 'недвижимость'
    if 'автомобиль' in purp_lem:
        return 'автомобиль'
    if 'образование' in purp_lem:
        return 'образование'
    if 'свадьба' in purp_lem:
        return 'свадьба'
    return 'прочее'
data['category_cred'] = data['purpose'].apply(credit_category)

purpose_stat_credit = data.pivot_table(index=['category_cred'], columns='debt', values='total_income', aggfunc='count')
purpose_stat_credit.columns = ['no_debt', 'debt']
purpose_stat_credit = purpose_stat_credit.fillna(0)
purpose_stat_credit['percent %'] = purpose_stat_credit['debt'] / (purpose_stat_credit['debt'] + purpose_stat_credit['no_debt'])
display(purpose_stat_credit.sort_values(by='percent %', ascending=False))

Unnamed: 0_level_0,no_debt,debt,percent %
category_cred,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3905,403,0.093547
образование,3644,370,0.092177
свадьба,2149,186,0.079657
недвижимость,10032,782,0.072314


**Вывод**

Результат показывает, что у когорты  с целью "автомобиль" все деньги уходят на бензин, а у когорты "образование" на покупку курсовых, зачетов и экзаменов.

## Общий вывод

Результаты проведенного исследования показывают, что семейное положение и наличие детей у клиента оказывают влияние на факт погашения кредита.