## Оглавление:
* [1 Описание данных](#One)
* [2 Загрузка данных](#Two)
* [3 Предобработка данных](#Three)
    * [3.1 Обработка пропусков](#ThreePointOne)
    * [3.2 Замена типов данных](#ThreePointTwo)
    * [3.3 Обработка дубликатов](#ThreePointThree)
    * [3.4 Лемматизация](#ThreePointFour)
    * [3.5 Категоризация данных](#ThreePointFive)
* [4 Анализ данных](#Four)
* [5 Общий вывод](#Five)


## Исследование надёжности заёмщиков

Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

## 1 Описание данных <a class="anchor" id="One"></a>

    children — количество детей
    days_employed — стаж в днях
    dob_years — возраст клиента в годах
    education — образования 
    education_id — id образования
    family_status — семейное положение
    family_status_id — id семейного положения
    gender — пол
    income_type — тип занятости
    debt — прошлые задолженности
    total_income — месячный доход
    purpose — цель кредита

## 2 Загрузка данных <a class="anchor" id="Two"></a>

In [69]:
import pandas as pd
import numpy as np
reliability = pd.read_csv('data.csv')
print(reliability.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


In [70]:
#Проверим данные на наличие пропусков
print('_____________________________________')
na = 0
for column in reliability.columns:
    na = reliability[column].isna().sum()
    if na > 0:
        print('В столбце', column, 'найдено', na, 'пропуска.')

#Функция определения числового значения
def isdigit(str):
    try:
        float(str)
        return True
    except TypeError:
        return False
    except ValueError:
        return False
    
#Проверим данные на нулевые значения   
print('_____________________________________')
zero = 0
for column in reliability.columns:
    zero = reliability[reliability[column] == 0][column].count()
    if isdigit(zero) and zero > 0:
        print('В столбце', column, 'имеется', zero, 'нулевых значений.')

#Проверка на отрицательные значения
value = 0
print('_____________________________________')
for column in reliability.columns:
    value_1 = reliability.loc[1, column]
    if isdigit(value_1):
        value = reliability[reliability[column] < 0][column].count()
        if isdigit(value) and value > 0:
            print('В столбце', column, 'имеется', value, 'отрицательных значений.') 

_____________________________________
В столбце days_employed найдено 2174 пропуска.
В столбце total_income найдено 2174 пропуска.
_____________________________________
В столбце children имеется 14149 нулевых значений.
В столбце dob_years имеется 101 нулевых значений.
В столбце education_id имеется 5260 нулевых значений.
В столбце family_status_id имеется 12380 нулевых значений.
В столбце debt имеется 19784 нулевых значений.
_____________________________________
В столбце children имеется 47 отрицательных значений.
В столбце days_employed имеется 15906 отрицательных значений.


### Вывод

Полученная таблица, предварительно, имеет следующие проблемы:
1. в двух колонках ('days_employed' и 'total_income') имеется по 2174 пропуска,
2. в данных колонки 'days_employed' два вида ошибок:
    - отрицательное количество дней (предполагаю что для анализа будет достаточно изменить знак)
    - у всех пенсионеров (без пропусков в столбце 'days_employed') и безработных стаж в днях неотрицательный и (среднее и медиана) составляет около 365000. Возможно стаж для пенсионеров и безработных представлен в других единицах (часах).
3. в колонке 'dob_years' присутствуют нулевые значения, возможно вызванные ошибками ввода.
4. в колонке 'gender' присутствует одно значение XNA.
5. в колонке 'children' присутствует 47 отрицательных значений.

## 3 Предобработка данных. <a class="anchor" id="Three"></a>

### 3.1 Обработка пропусков <a class="anchor" id="ThreePointOne"></a>

In [71]:
#Для проверки сохраним средние значения и медианы столбцов 'dob_years', 'total_income', 'days_employed', 
#чтобы сравнить их со значениями полученными после обработки
print('Возраст клиента до обарботки: медиана -{:.2f}, среднее - {:.2f}'.format(
    reliability['dob_years'].median(), 
    reliability['dob_years'].mean()))
print('Ежемесячный доход до обарботки: медиана - {:.2f}, среднее - {:.2f}'.format(
    reliability['total_income'].median(),
    reliability['total_income'].mean()))
print('Стаж клиента до обарботки: медиана -{:.2f}, среднее - {:.2f}'.format(
    reliability['days_employed'].median(),
    reliability['days_employed'].mean()))

Возраст клиента до обарботки: медиана -42.00, среднее - 43.29
Ежемесячный доход до обарботки: медиана - 145017.94, среднее - 167422.30
Стаж клиента до обарботки: медиана --1203.37, среднее - 63046.50


In [72]:
reliability

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [73]:
#Заполним пропуски в стаже у пенсионеров средним значением, а также приведем значения в строке стажа к дням.
pensioner_mean = reliability[reliability['income_type'] == 'пенсионер']['days_employed'].mean()
reliability.loc[:,'days_employed'][reliability['income_type']=='пенсионер'] = reliability.loc[:,'days_employed'][reliability['income_type']=='пенсионер'].fillna(pensioner_mean)
reliability['days_employed'][reliability['income_type']=='пенсионер'] = reliability['days_employed'][reliability['income_type']=='пенсионер'] / 24
reliability['days_employed'][reliability['income_type']=='безработный'] = reliability['days_employed'][reliability['income_type']=='безработный'] / 24

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """


In [74]:
#Заполним остальные пропуски в стаже значениями, зависящими от возраста. 
#Для начала уберем уберем отрицательные значения

reliability['days_employed'] = reliability['days_employed'].apply(abs)

#В выборке имеются 7 значений с нулевым возрастом и отсутствующим значением стажа. 
#Назначим для них значение возраста равным среднему значению.

age_mean = reliability['dob_years'].mean()
mask = reliability['days_employed'].isnull()
reliability.loc[mask, 'dob_years'] = reliability.loc[mask, 'dob_years'].replace(0, age_mean)

#Оставшиеся пропуски в возрасте заполним исходя из предположения что человек имел непрерывный трудовой стаж с 18 лет

age_from_employed = 18 + reliability['days_employed'] / 365
reliability['dob_years'].replace(0, age_from_employed, inplace = True)

#Пропуски в стаже заполним значениями зависящими от возраста. Введем индекс равный отношению стажа к возрасту

reliability['age_index'] = reliability['days_employed'] / reliability['dob_years']

#И найдем его медиану (среднее значение подходит меньше так как люди с маленьким стажем или 
#работающие после выхода на пенсию могут сильно его сдвинуть)

age_index_median = reliability['age_index'].median()

mask_2 = reliability['days_employed'].isnull()

#Пропуски стажа заполним значением возраста умноженным на медиану индекса

reliability.loc[mask_2, 'days_employed'] = reliability.loc[mask_2, 'dob_years'] * age_index_median

In [75]:
#Заполним пропуски в доходах медианными значениями, зависящими от уровня образования и должности

def edu_income_group(row):
    """ Присваивает строке номер группы,  зависящий от образования и должности, что, в дальнейшем,
    будет использовано для расчета медианы дохода. ID группы - двузначное число, второй знак - id образования
    первый знак - id должности:
    1 - сотрудник
    2 - компаньон
    3 - пенсионер
    4 - госслужащий
    5 - предприниматель
    6 - безработный
    7 - студент
    8 - в декрете"""
    education_id = row['education_id']
    income_type = row['income_type']
    type_dict = {'сотрудник' : 1, 'компаньон' : 2, 'пенсионер' : 3, 'госслужащий' : 4,
                 'предприниматель' : 5, 'безработный' : 6, 'студент' : 7, 'в декрете' : 8}
    income_type_id = type_dict[income_type]
    return income_type_id * 10 + education_id
reliability['edu_income_id'] = reliability.apply(edu_income_group, axis=1)

#Медианы дохода по каждой группе

median_income = reliability.groupby('edu_income_id')['total_income'].median()

In [76]:
#Заполняем пропуски, сначала, значениями 'edu_income_id'

reliability['total_income'] = reliability['total_income'].fillna(reliability['edu_income_id'])

#После чего меняем их на медианные значения. i[0] - edu_income_id, i[1] - медиана дохода по этой группе

for i in median_income.items():
    reliability['total_income'].loc[reliability['total_income']==i[0]] = i[1] 

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_with_indexer(indexer, value)


In [77]:
#Исправим значение -1 в колонке 'children', исходя из предположения что при вводе количество детей вводили через дефис
reliability['children'].replace(-1, 1, inplace = True)
#В датасете присутствуют 76 позиций с количеством детей 20, что маловероятно. Предположительно при вводе был ошибочно добавлен 0
reliability['children'].replace(20, 2, inplace = True)


In [78]:
#Одно значение XNA в колонке 'gender' с вероятностью 66% должно быть равно F. ( F/(F+M) = 0,66)
reliability['gender'].replace('XNA', 'F', inplace = True)

In [79]:
#Значения 'dob_years', 'total_income', 'days_employed' после обработки

print('Возраст клиента после обарботки: медиана - {:.2f}, среднее - {:.2f}'.format(
    reliability['dob_years'].median(), 
    reliability['dob_years'].mean()))
print('Ежемесячный доход после обарботки: медиана - {:.2f}, среднее - {:.2f}'.format(
    reliability['total_income'].median(), 
    reliability['total_income'].mean()))
print('Стаж клиента после обарботки: медиана - {:.2f}, среднее - {:.2f}'.format(
    reliability['days_employed'].median(), 
    reliability['days_employed'].mean()))


Возраст клиента после обарботки: медиана - 43.00, среднее - 43.45
Ежемесячный доход после обарботки: медиана - 143496.28, среднее - 165353.73
Стаж клиента после обарботки: медиана - 2294.48, среднее - 4659.83


In [80]:
#Удалим столбцы с промежуточными вычислениями
del reliability['age_index']
del reliability['edu_income_id']

### Вывод

При обработке данных были выявлены и устранены следующие неточности и пропуски:
1. В колонке 'children':
    -47 позиций со значением '-1', предполагаю что это вызвано тем что перед значением вводили дефис, исправлено на '1'.
    -76 позиций со значением '20', предполагаю что 0 в конце был введен ошибочно, исправлено на '2'.
2. В колонке 'days_employed':
    -15906 позиций с отрицательными значениями, пердположительно вызвано тем что перед значением вводили дефис, исправлено взятием модуля значения.
    -3445 позиций со значениями превышающими разумные (в среднем 360000 дней). Такие значения наблюдаются только в категориях 'пенсионер' и 'безработный'. Предположительно значения получены из источника, в котором значения были представлены в дргих единицах (часах). Исправлено переводом значений в дни.
    -2174 пропуска. Пропуски в категории 'пенсионер' заполнены средним (средние и медианные значения практически равны) значением, так как выход на пенсию происходит по достижению примерно одинакого возраста и стажа. Для заполнения остальных пропусков было посчитан индекс как отношение стажа к возрасту для клиентов с известными возрастом и стажем ('age_index'). Медиана этого индекса умноженная на возраст клиента, с пропуском в стаже, дает искомый стаж.
3. В колонке 'dob_years' 101 значение было равно '0'. Возможная причина возникновения - ошибка при вводе. 7 значений, имеющих также пропуски в значении стажа были заполнены средним возрастом, остальные заполнены исходя из предположения что клиенты с 18 лет имели непрерывный трудовой стаж. (18 лет + стаж / 365)
4. В колонке 'gender' имелось одно значение 'XNA', ему присвоено значение F, как более вероятно, так как соотношение мужчин к женщинам 1 к 2.
5. В колонке 'total_income' 2174 пропуска. Для заполнения клиенты были разделены на группы, в зависимости от их образования и должности. По каждой группе были найдены медианные значения дохода, которыми и заполнены пропуски в данных.

### 3.2 Замена типа данных <a class="anchor" id="ThreePointTwo"></a>

In [81]:
#Заменим типы данных int64 и float64 на более подходящие по размерности
for name, values in reliability.iteritems():
        print('{name}'.format(name=name))
        print('Максимум -', reliability[name].max(), ', минимум - ', reliability[name].min())
    
reliability['children'] = reliability['children'].astype('int8')
reliability['days_employed'] = reliability['days_employed'].astype('int16')
reliability['dob_years'] = reliability['dob_years'].astype('int8')
reliability['education_id'] = reliability['education_id'].astype('int8')
reliability['family_status_id'] = reliability['family_status_id'].astype('int8')
reliability['debt'] = reliability['debt'].astype('int8')
reliability['total_income'] = reliability['total_income'].astype('int32')
print(reliability.info())

children
Максимум - 5 , минимум -  0
days_employed
Максимум - 18388.949900568383 , минимум -  24.14163324048118
dob_years
Максимум - 75.0 , минимум -  18.29853984072917
education
Максимум - ученая степень , минимум -  ВЫСШЕЕ
education_id
Максимум - 4 , минимум -  0
family_status
Максимум - женат / замужем , минимум -  Не женат / не замужем
family_status_id
Максимум - 4 , минимум -  0
gender
Максимум - M , минимум -  F
income_type
Максимум - студент , минимум -  безработный
debt
Максимум - 1 , минимум -  0
total_income
Максимум - 2265604.028722744 , минимум -  20667.26379327158
purpose
Максимум - сыграть свадьбу , минимум -  автомобили
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int8  
 1   days_employed     21525 non-null  int16 
 2   dob_years         21525 non-null  int8  
 3   education    

### Вывод

Для каждой колонки имеющей числовой тип данных найдено минимальное и максимальное значение, в зависимости от которого выбран тип данных. После замены использования памяти базой данных уменьшщилось на половину.

### 3.3 Обработка дубликатов <a class="anchor" id="ThreePointThree"></a>

In [82]:
#Приведем строки колонок 'object' к нижнему регистру
for name in ['education', 'family_status', 'gender', 'income_type', 'purpose']:
    reliability[name] = reliability[name].str.lower()

print('В данных обнаружен', reliability.duplicated().sum(), 'дубликат')
reliability = reliability.drop_duplicates().reset_index(drop = True)
print('В данных обнаружено', reliability.duplicated().sum(), 'дубликатов')


В данных обнаружен 71 дубликат
В данных обнаружено 0 дубликатов


### Вывод

Перед началом поиска дубликатов значения строковых колонок было приведено к нижнему регистру.
Обнаружен 71 дубликат. Они были исключены из таблицы со сбросов индекса методом 'drop_duplicates'. Дубликаты могли возникнуть при слиянии различных баз данных.

### 3.4 Лемматизация <a class="anchor" id="ThreePointFour"></a>

In [83]:
#Сгруппируем причины взятия кредита
list_purpose = reliability['purpose'].unique()
#Сформируем словарь причин взятия кредита: 
#'свадьба' - 0, 'недвижимость' или 'жилье' - 1, 'автомобиль' - 2, 'образование' - 3
purpose_dict = {'свадьба' : 0, 'недвижимость' : 1, 'жилье' : 1, 'автомобиль' : 2, 'образование' : 3}

In [84]:
reliability['purpose_id'] = np.nan

In [85]:
from pymystem3 import Mystem
m = Mystem()
for text in list_purpose:
    lemmas = m.lemmatize(text)
    for i in lemmas:
        if i in purpose_dict:
            reliability['purpose_id'].loc[reliability['purpose']==text] = purpose_dict[i] 
reliability['purpose_id'] = reliability['purpose_id'].astype('int8')  

### Вывод

Среди всех причин взятия кредита были выделены 4 группы:
1. Кредит на свадьбу (purpose_id = 0)
2. Кредит на покупку недвижимости, жилья (purpose_id = 1)
3. Кредит на автомобиль (purpose_id = 2)
4. Кредит на получение образования (purpose_id = 3)

В базу данных была введена новая колонка 'purpose_id' для отражения причины покупки. Для заполнения колонки была проведена лемматизация данных по словам: 'свадьба', 'недвижимость', 'жилье', 'автомобиль', 'образование'. 

### 3.5 Категоризация данных <a class="anchor" id="ThreePointFive"></a>

In [86]:
#Функция для категоризации датасета по наличию детей
def child_group(count):
    if count > 0:
        return 'with children'
    return 'without children'
reliability['child_group'] = reliability['children'].apply(child_group)

In [87]:
#Разделим датасет на равные группы по уровню дохода, для этого определим границы групп. 
total_income = reliability['total_income']
total_income = total_income.sort_values().reset_index(drop = True)
print('Верхняя граница низкого дохода -', total_income[round(len(total_income)/3)])
print('Нижняя граница высокого дохода -', total_income[round(2*len(total_income)/3)])
#Фнкция категоризации по уровню дохода.
def income_group(income):
    if income < 119873:
        return 'low'
    if income > 173166:
        return 'high'
    return 'middle'    

Верхняя граница низкого дохода - 119873
Нижняя граница высокого дохода - 173166


In [88]:
reliability['income_group'] = reliability['total_income'].apply(income_group)

In [89]:
#Разделим датасет на группы по семейному положению. single - нет семьи, in relation - есть семья.
def family_group(family_id):
    if family_id == 0 or family_id == 1:
        return 'in relation'
    return 'single'
#Разделим датасет на группы по тому, был ли клиент в браке
def marriage_group(family_id):
    if family_id == 1 or family_id ==4:
        return 'was not married'
    return 'was married'

In [90]:
reliability['family_group'] = reliability['family_status_id'].apply(family_group)
reliability['marriage_group'] = reliability['family_status_id'].apply(marriage_group)

### Вывод

База данных была сгруппирована по нескольким категориям:
1. По цели взятия кредита (ранее созданная 'purpose_id')
2. По наличию детей (колонка 'child_group') 
3. По уровню дохода. Для группировки по этому показателю все заемщики были разделены на 3 равные (по количеству заемщиков) группы: низкий доход, средний доход, высокий доход.
4. По наличию семью.
5. По тому, был ли клиент в браке.

## 4 Анализ данных <a class="anchor" id="Four"></a>

- Анализ связи наличия детей и невозврата кредита

In [91]:
pivot_child = reliability.pivot_table(
    index =['child_group'], 
    values='debt', 
    aggfunc=('mean'), 
    margins=True, 
    margins_name='Mean')

print(pivot_child.sort_values(by='debt'))

                      debt
child_group               
without children  0.075438
Mean              0.081150
with children     0.092082


### Вывод

В группе заемщиков с детьми должников по кредиту 9,2%, а в группе бездетных 7,5%, при среднем проценте невозврата - 8,1%. 

- Анализ связи семейного положения и возвратом кредита

In [92]:
pivot_family = reliability.pivot_table(
    index ='family_group', 
    values='debt', 
    aggfunc=('mean'), 
    margins=True, 
    margins_name='Mean')

pivot_marriage = reliability.pivot_table(
    index =['marriage_group'], 
    values='debt', 
    aggfunc=('mean'), 
    margins=True, 
    margins_name='Mean')

print(pivot_family.sort_values(by='debt'))
print(pivot_marriage.sort_values(by='debt'))

                  debt
family_group          
in relation   0.079988
Mean          0.081150
single        0.085012
                     debt
marriage_group           
was married      0.074450
Mean             0.081150
was not married  0.095101


### Вывод

Одинокие задерживают выплаты в 8,5% случаев, семейные в 8%. При этом интересно что люди вступившие в брак более ответственны чем люди в браке не состоявшие 7,5% против 9,5% соответственно.

- Анализ связи уровня дохода и возврата кредита

In [93]:
pivot_income = reliability.pivot_table(
    index =['income_group'], 
    values='debt', 
    aggfunc=('mean'), 
    margins=True, 
    margins_name='Mean')

print(pivot_income.sort_values(by='debt'))

                  debt
income_group          
high          0.073986
low           0.081108
Mean          0.081150
middle        0.088355


### Вывод

Люди с высоким доходом задерживат выплаты в 7,4% случаев, с низким в 8,1%, со средним в 8,8%.

- Анализ связи цели кредита и его возврата

In [94]:
pivot_purpose = reliability.pivot_table(
    index =['purpose_id'], 
    values='debt', 
    aggfunc=('mean'), 
    margins=True, 
    margins_name='Mean')
print(pivot_purpose.sort_values(by='debt'))

                debt
purpose_id          
1           0.072334
0           0.080034
Mean        0.081150
3           0.092200
2           0.093590


### Вывод

Самые необязательные должники (9,3% и 9,2% задержек выплат) берут кредиты на автомобиль и образование, лучше возвращают кредит после свадьбы (8%) и больше всего дорожат недвижимостью (7,2%).

## 5 Общий вывод <a class="anchor" id="Five"></a>

### Анализ статистики выданных кредитов показал:
1. Средний процент клиентов имевших или имеющих задолженность по кредиту - 8,1%.
2. Факт наличия детей у заемщика повышает риск возникновения задолженности. У бездетных должников 7,5% у имеющих детей 9,2%, при среднем значении 8,1%. Вероятно это связанно с тем что наличие детей повышает количество непредвиденных расходов, а также снижает удельный доход на члена семьи.
3. Семейное положение тоже влияент на риски возникновения задолженностей. Люди единожды вступавшие в оформленый брак менее склонны к задержкам в выплате кредита. 7,4% против 9,5%. Связь между этим, вероятно, опосредованная, люди готовые к оформлению своих отношений более отвественны и в вопросах связанных с финансами.
4. Заемщики с уровнем дохода выше среднего лучше возвращают кредиты (7,3% должников), доля должников с низким уровнем дохода находится на уровне среднего по выборке - 8,1%. Самая высокая доля должников в группе со средним уровнем дохода. Возможно люди со средним достатком склонны переоценивать свои способности к возврату кредита.
5. Цель кредита - последняя категория по которой оценивались заемщики. В этой категории лучше всего возвращают долг клиенты преобретающие недвижимость (7,2% должников). Такие покупки, ввиду стоимости и срока кредита, совершаются более обдуманно. Кредит на свадьбу возвращается на среднем уровне - 8%. Хуже всего - кредит на образование (9,2% должников), вероятно из-за того что доходы клиента падают из-за необходимости совмещать работу и учебу, и на покупку автомобиля (9,3%) - возможно из-за большей импульсивности таких покупок, а также связанных с покупкой дополнительных расходов, не учтенных ранее - страховка, доп. опции.

В дальнейшем, при анализе рисков невозврата кредита, следует учитывать полученные данные, а также провести аналогичное исследование на новой выборке, для подтверждения полученных результатов.

