# Исследование надёжности заёмщиков

## Шаг 1. Откройте файл с данными и изучите общую информацию

In [1]:
import pandas as pd #импортируем библиотеки pandas

data = pd.read_csv('/datasets/data.csv')#считаем файл с данными и сохранение в data

display(data.head(20)) #получим первые 20 строк таблицы data
data.info() #получим общую информацию о данных в таблице data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [2]:
data.describe() #получим также разброс значений, максимум, минимум, среднее и медиану

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Вывод**

В таблице 12 столбцов. Типы данных в столбцах — object, int64, float64.

Согласно документации к данным:

    children — количество детей в семье
    days_employed — общий трудовой стаж в днях
    dob_years — возраст клиента в годах
    education — уровень образования клиента
    education_id — идентификатор уровня образования
    family_status — семейное положение
    family_status_id — идентификатор семейного положения
    gender — пол клиента
    income_type — тип занятости
    debt — имел ли задолженность по возврату кредитов
    total_income — ежемесячный доход
    purpose — цель получения кредита.

В названиях колонок нарушения стиля нет.

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения. Конкретно в столбцах - days_employed и total_income. Также есть отрицательные значения.

В каждой строке таблицы — данные о клиенте и цели получения кредита.

Чтобы двигаться дальше, нужно устранить эти проблемы.

## Шаг 2. Предобработка данных

### Обработка пропусков

В столбцах 'days_employed' и 'children' содержатся отрицательные значения. Избавимся от них применением метода abs().

In [3]:
data['days_employed'] = data['days_employed'].apply(abs) #применим метод abs() к столбцу 'days_employed'
data['children'] = data['children'].apply(abs) #применим метод abs() к столбцу 'children'

Методом isna().sum() посчитаем количество пропусков. Выявлены в столбцах 'days_employed' и 'total_income' пропущенные значения типа NaN. Возможно, клиент не захотел указывать эти данные.
Исходя из этого заменим медианным значением по типу занятости, применив метод fillna().

In [4]:
print(data.isna().sum()) #посчитаем количество пустых значений в каждом столбце
data['days_employed'] = data['days_employed'].fillna(data.groupby('income_type')['days_employed'].transform('median')) #заполним пропуски средним значением стажа по типу занятости
data['total_income'] = data['total_income'].fillna(data.groupby('income_type')['total_income'].transform('median')) #заполним пропуски средним значением дохода по типу занятости


children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


In [5]:
print(data.isna().sum()) #убедимся, что пустых значений нет

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64


Также видим, что в столбце 'days_employed' содержатся значения разные по смыслу, т.е. количество дней и часов. Приведем к виду, удобному для восприятия, т.е. стаж в годах.

In [6]:
hours_in_year = 8760
days_in_year = 365

#приведем стаж к виду, удобному для восприятия, т.е. стаж в годах
def set_valid_days_employed(row):
    days_employed = row['days_employed']
    if days_employed >= hours_in_year:
        return days_employed / hours_in_year
    elif days_employed <= days_in_year:
        return 1
    else:
        return days_employed / days_in_year
    
data['days_employed'] = data.apply(set_valid_days_employed, axis=1) #применим функцию к столбцу 'days_employed'
display(data.head(20)) #выведем для проверки первые 20 строк

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23.116912,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,11.02686,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,15.406637,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,11.300677,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,38.843159,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,2.537495,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,7.888225,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,1.0,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,18.985932,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,5.996593,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


### Замена типа данных

In [7]:
data['days_employed'] = data['days_employed'].astype('int') #заменим тип float64 на int64 для уменьшения потребления памяти
data['total_income'] = data['total_income'].astype('int') #заменим тип float64 на int64 для уменьшения потребления памяти
display(data.head(20))  #выведем для проверки первые 20 строк

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,15,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,38,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,2,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,7,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,1,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,18,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,5,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


**Вывод**

В столбцах заменили вещественный тип на целочисленный для уменьшения потребления памяти.

### Обработка дубликатов

На этапе обработки дубликатов посчитаем методом duplicated().sum() их общее количество и методом unique() найдем уникальные значения столбца 'education'.

In [8]:
print(data.duplicated().sum()) #посчитаем количество дубликатов
print(data['education'].unique()) #найдем уникальные значения столбца 'education'

54
['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']


Выявили неявные дубликаты в столбце 'education'. Приведем эти значения к нижнему регистру.

In [9]:
data['education'] = data['education'].str.lower() #приведем к нижнему регистру
data['family_status'] = data['family_status'].str.lower() #приведем к нижнему регистру

Количество дубликатов увеличилось до 71.

In [10]:
print(data.duplicated().sum()) #посчитаем количество дубликатов

71


Удалим их.

In [11]:
data = data.drop_duplicates().reset_index(drop=True) #удалим дубликаты
print(data.duplicated().sum()) #проверим количество дубликатов

0


In [12]:
display(data) #выведем на экран данные

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,38,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,12,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21450,0,39,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21451,1,5,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21452,3,8,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


**Вывод**

Таким образом, после обработки дубликатов, количество строк в таблице стало 21454.

### Лемматизация

Сперва найдем уникальные значения столбца 'purpose'.

In [13]:
print(data['purpose'].unique()) #найдем уникальные значения столбца 'purpose'

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']


Видим, что много целей, похожих по смыслу.
Лемматизируем эти значения.

In [14]:
from pymystem3 import Mystem #импортируем pymystem3
m = Mystem()

#найдем упоминание и заменим цель на соответствующее слово
def get_lemmas(row):
    purpose = row['purpose']
    lemmas = m.lemmatize(purpose)
    for word in lemmas:
        if word == 'свадьба' or word == 'автомобиль' or word == 'образование':
            return word
        elif word == 'жилье' or word == 'недвижимость':
            return 'недвижимость'

data['purpose'] = data.apply(get_lemmas, axis=1) #применим функцию к столбцу 'purpose'

После лемматизации посчитаем количество дубликатов и удалим.

In [15]:
print(data.duplicated().sum()) #посчитаем количество дубликатов

334


In [16]:
data = data.drop_duplicates().reset_index(drop=True) #удаляем дубликаты

In [17]:
print(data['purpose'].unique()) #проверим уникальность целей

['недвижимость' 'автомобиль' 'образование' 'свадьба']


In [18]:
display(data) #выводим данные

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование
4,0,38,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба
...,...,...,...,...,...,...,...,...,...,...,...,...
21115,1,12,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,недвижимость
21116,0,39,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,автомобиль
21117,1,5,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21118,3,8,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,автомобиль


**Вывод**

В столбце 'purpose' нашли похожие по смыслу цели, т.е. неявные дубликаты.

С помощью лемматизации заменили их на конкретные цели. А именно написали функцию для одной строки, которую применили для столбца с целями. В этой функции лемматизировали значение, проверили его на соответствующие цели (свадьба, автомобиль, образование, недвижимость) и заменили.

### Категоризация данных

1.Проверка зависимости между наличием детей и возвратом кредита в срок.

С помощью метода pivot_table() сгруппируем таблицу по наличию детей, найдем общее количество клиентов, количество должников и долю неплатежеспособных. Выведем на экран.

In [19]:
#проверка зависимости между наличием детей и возвратом кредита в срок:
children_stat = data.pivot_table(index='children', values='debt', aggfunc={'sum', 'count', 'mean'}) #применим pivot_table для группировки по столбцу 'children' и подсчета количества должников, общего количества и доли неплатежеспособных клиентов
display(children_stat) #выведем таблицу на экран

Unnamed: 0_level_0,count,mean,sum
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13829.0,0.076723,1061.0
1,4798.0,0.092747,445.0
2,2039.0,0.095145,194.0
3,329.0,0.082067,27.0
4,40.0,0.1,4.0
5,9.0,0.0,0.0
20,76.0,0.105263,8.0


2.Проверка зависимости между семейным положением и возвратом кредита в срок.

Также с помощью метода pivot_table() сгруппируем таблицу по столбцам 'family_status_id', 'family_status', найдем общее количество клиентов, количество должников и долю неплатежеспособных. Выведем на экран.

In [20]:
#проверка зависимости между семейным положением и возвратом кредита в срок:
family_stat = data.pivot_table(index=['family_status_id', 'family_status'], values='debt', aggfunc={'sum', 'count', 'mean'}) #применим pivot_table для группировки по столбцам 'family_status_id', 'family_status' и подсчета количества должников, общего количества и доли неплатежеспособных клиентов
display(family_stat) #выведем таблицу на экран

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,sum
family_status_id,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,женат / замужем,12076.0,0.076929,929.0
1,гражданский брак,4124.0,0.094083,388.0
2,вдовец / вдова,943.0,0.066808,63.0
3,в разводе,1193.0,0.071249,85.0
4,не женат / не замужем,2784.0,0.09842,274.0


3.Проверка зависимости между уровнем дохода и возвратом кредита в срок.

Сперва выделим словарь категории по уровню дохода, типу занятости и платежеспособности. Удалим дубликаты.

Напишем функцию для распределения уровня дохода по категориям:

    -доход <= 100000;
    -100000 < доход <= 500000;
    -500000 < доход <= 1000000;
    -доход > 1000000.
    
И применим ее для столбца 'total_income'. 
Затем с помощью метода pivot_table() сгруппируем таблицу по столбцам 'total_income', 'income_type', найдем общее количество клиентов, количество должников и долю неплатежеспособных.

Выведем на экран.

In [21]:
#проверка зависимости между уровнем дохода и возвратом кредита в срок:
income_dict = data[['income_type','total_income', 'debt']] #выделим словарь категории по уровню дохода, типу занятости и платежеспособности
income_dict = income_dict.drop_duplicates().reset_index(drop=True) #удалим дубликаты

#функция для распределения уровня дохода по категориям:
def total_income_group(row):
    total_income = row['total_income']
    if total_income <= 100000:
        return 'доход <= 100000'
    elif 100000 < total_income <= 500000:
        return '100000 < доход <= 500000'
    elif 500000 < total_income <= 1000000:
        return '500000 < доход <= 1000000'
    else:
        return 'доход > 1000000'

income_dict['total_income'] = income_dict.apply(total_income_group, axis=1) #применим функцию total_income_group для столбца 'total_income'

income_stat = income_dict.pivot_table(index=['total_income', 'income_type'], values='debt', aggfunc={'sum', 'count', 'mean'}) #применим pivot_table для группировки по столбцам 'total_income', 'income_type' и подсчета количества должников, общего количества и доли неплатежеспособных клиентов
display(income_stat) #выведем таблицу на экран

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,sum
total_income,income_type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100000 < доход <= 500000,безработный,1.0,0.0,0.0
100000 < доход <= 500000,госслужащий,1009.0,0.058474,59.0
100000 < доход <= 500000,компаньон,3858.0,0.075687,292.0
100000 < доход <= 500000,пенсионер,2120.0,0.057075,121.0
100000 < доход <= 500000,предприниматель,1.0,0.0,0.0
100000 < доход <= 500000,сотрудник,7498.0,0.097759,733.0
500000 < доход <= 1000000,госслужащий,14.0,0.0,0.0
500000 < доход <= 1000000,компаньон,101.0,0.059406,6.0
500000 < доход <= 1000000,пенсионер,19.0,0.0,0.0
500000 < доход <= 1000000,сотрудник,63.0,0.095238,6.0


4.Проверка зависимости между целями кредита и возвратом в срок.

С помощью метода pivot_table() сгруппируем таблицу по целям кредита, найдем общее количество клиентов, количество должников и долю неплатежеспособных. Выведем на экран.


In [22]:
#проверка зависимости между целями кредита и возвратом в срок:
purpose_stat = data.pivot_table(index='purpose', values='debt', aggfunc={'sum', 'count', 'mean'}) #применим pivot_table для группировки по столбцу 'purpose' и подсчета количества должников, общего количества и доли неплатежеспособных клиентов
display(purpose_stat) #выведем таблицу на экран

Unnamed: 0_level_0,count,mean,sum
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,4272.0,0.094101,402.0
недвижимость,10578.0,0.073832,781.0
образование,3964.0,0.09334,370.0
свадьба,2306.0,0.080659,186.0


**Вывод**

Провели следующие проверки:
1. Проверка зависимости между наличием детей и возвратом кредита в срок:
        -посчитали общее количество, количество и долю неплатежеспособных клиентов, сгруппировав данные по столбцу 'children'
2. Проверка зависимости между семейным положением и возвратом кредита в срок:
        -посчитали общее количество, количество и долю неплатежеспособных клиентов, сгруппировав данные по столбцам 'family_status_id', 'family_status'
3. Проверка зависимости между уровнем дохода и возвратом кредита в срок:
        -выделили словарь категории по уровню дохода, типу занятости и платежеспособности
        -удалили дубликаты
        -написали функцию для распределения дохода по категориям(до 100000, от 100000 до 500000, от 500000 до 1000000 и от 1000000)
        -применили функцию распределения дохода по категориям для столбца 'total_income'
        -посчитали общее количество, количество и долю неплатежеспособных клиентов, сгруппировав данные по столбцам 'total_income', 'income_type'
4. Проверка зависимости между целями кредита и возвратом в срок:
        -посчитали общее количество, количество и долю неплатежеспособных клиентов, сгруппировав данные по столбцу 'purpose'.

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Наличие детей влияет на возврат кредита в срок.

**Вывод**

Исходя из таблицы видим, что влияние наличия детей на возврат кредита в срок зависит от их количества. Т.к. при отсутствии детей процент неплатежеспособных равен 7%, а при наличии от 1 до 4, либо 20 детей - варьируется от 8 до 10%. Но при наличии 5 детей процент неплатежеспособных равен 0.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

Семейное положение не влияет на возврат кредита в срок.

**Вывод**

По семейному положению можем сказать, что процент неплатежеспособности примерно одинаковый среди тех, кто в браке, либо свободны. Т.к. те, кто в разводе, женат/замужем имеют процент неплатежеспособности - 7, и те, кто в гражданском браке, не женат/не замужем - 9%.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Уровень дохода по типу занятости влияет на возврат кредита в срок.

**Вывод**

Исходя из таблицы уровень дохода по типу занятости влияет на возврат в срок:

    - до 100000 - безработные и те, кто в декрете не возвращают кредит, а наибольший процент неплатежеспособных среди сотрудников-9%, компаньонов-8% и госслужащих-7%, наименьший - среди студентов.
    - от 100000 до 500000 - наибольший процент неплатежеспособных среди сотрудников-9% и компаньонов-7%, наименьший - среди безработных и предпринимателей.
    - от 500000 до 1000000 - наибольший процент неплатежеспособных среди сотрудников-9% и компаньонов-5%, наименьший - среди госслужащих и пенсионеров.
    - от 1000000 - наибольший - компаньоны-13%, наименьший - сотрудники.
    
Таким образом, можем сказать, что должников больше среди сотрудников и компаньонов. Но при уровне дохода более 1000000 сотрудники вполне платежеспособные клиенты.

Госслужащие и пенсионеры с доходом от 500000 проблем с возвратом кредита не имеют.

Студенты и предприниматели исправно возвращают кредит.

Те, кто в декрете неплатежеспособны.

Безработные возвращают в зависимости от дохода(от 100000 до 500000 - платежеспособны, до 100000 - нет).

- Как разные цели кредита влияют на его возврат в срок?

Цели кредита влияют на платежеспособность клиентов.

**Вывод**

Из таблицы видно, что разница невелика, но наибольшая неплатежеспособность среди тех, у кого цель - автомобиль или образование, составляет 9%, наименьшая среди тех, у кого цель - свадьба - 7%.

## Шаг 4. Общий вывод

Провели 4 проверки и установили:
1. Наличие детей влияет на возврат кредита в срок
2. Семейное положение не влияет на возврат кредита в срок
3. Уровень дохода по типу занятости влияет на возврат кредита в срок
4. Цели кредита влияют на платежеспособность клиентов

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.