## Исследование надёжности заёмщиков


### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [None]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Вывели на экран информацию о данной таблице.

In [None]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Рассмотрим первые 10 строк таблицы. 
Всего таблица содержит 12 столбцов.

Видим, что данные в столбце 'days_employed' очень странные. Много отрицательных чисел, очень большие числа(если переводить их в года получается 900 лет, чего быть не может). Рассмотрим данные этого столбца подробнее.

In [None]:
days_employed_new = data[data['days_employed'] > 0]
days_employed_new.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости
30,1,335581.668515,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.067993,операции с коммерческой недвижимостью
35,0,394021.072184,68,среднее,1,гражданский брак,1,M,пенсионер,0,77805.677436,на проведение свадьбы
50,0,353731.432338,63,среднее,1,женат / замужем,0,F,пенсионер,0,92342.730612,автомобили
56,0,370145.087237,64,среднее,1,вдовец / вдова,2,F,пенсионер,0,149141.043533,образование
71,0,338113.529892,62,среднее,1,женат / замужем,0,F,пенсионер,0,43929.696397,автомобили
78,0,359722.945074,61,высшее,0,женат / замужем,0,M,пенсионер,0,175127.646,сделка с автомобилем


Посмотрев на положительные значения в столбце 'days_employed', замечаем, что в столбце 'income_type' только пенсионеры.
Проверим уникальные значения отсортированного датасета.

In [None]:
print('Количество положительных значений в столбце days_employed:', len(days_employed_new))
days_employed_new.groupby('income_type')['days_employed'].count()

Количество положительных значений в столбце days_employed: 3445


income_type
безработный       2
пенсионер      3443
Name: days_employed, dtype: int64

Видим, что положительные значения столбца 'days_employed' только у пенсионеров и безработных.
всего строк с положительными значениями трудового стажа 3445, соответственно все они и приходятся на пенсионеров и безработных,
то есть у тех категорий граждан, которые в данный момент не работают. Также заметили, что все эти числа очень большие(300 000 - 400 000). В столбце указан трудовой стаж в днях, а если перевести эти числа в года, получается 800 - 1000 лет, что не может быть верно. Соответственно во время заполнения данных произошла ошибка, либо данные указаны не в днях, а каких-либо более мелких единицах. 

Посмотрем данные о количестве детей.

In [None]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Видим, что в столбце есть отрицательные значения (-1) и большие значения (20). Заменим эти значения на 1 и 2 соответственно.

In [None]:
data.loc[data['children'] == -1, 'children'] = 1
data.loc[data['children'] == 20, 'children'] = 2
data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

### Вывод

Изучив информацию о данных, заметили несколько проблем. В столбцах с трудовым стажем и количеством детей нашли некорректные значения(отрицательные и очень большие). В первом случае решили ничего не изменять, так как данные для анализа нам не понадобятся. А значения о количестве детей изменили (-1 на 1 и 20 на 2).
Для исследования нам понадобятся данные столбцов "children", "family_status", "total_income", "debt".

### Шаг 2. Предобработка данных

### Обработка пропусков

Посмотрим, сколько и в каких столбцах присутствуют пропуски.

In [None]:
data.isnull().sum() 

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Так как столбец "days_employed" для исследования нам не потребуется, заменим пропуски нулями. 

In [None]:
data['days_employed'] = data['days_employed'].fillna(0)
data['days_employed'].isnull().sum()

0

Пропуски в столбце "total_income"(доход) заменим медианным значением. В случае с зарплатами лучше использовать медиану, а не среднее арифметическое, так как среднее очень чувствительно к сильно отклоняющимся от общей массы значениям. 

In [None]:
income_median = data['total_income'].median()
data['total_income'] = data['total_income'].fillna(income_median)
data['total_income'].isnull().sum()

0

Проверим наличие пропусков вызовом метододов для суммирования пропущенных значений.

In [None]:
data.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Получим общую информацию о данных и убедимся, что чистка выполнена успешно.

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод

Заполнили пропуски в столбцах 'days_employed'(трудовой стаж) и 'total_income'(доход). Причины таких пропусков могут быть различны. Например, клиент не указал эти данные при обращении за кредитом.

### Замена типа данных

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [None]:
data['days_employed'] = data['days_employed'].astype('int')
data['total_income'] = data['total_income'].astype('int')

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Вывод

Столбцы 'days_employed' и 'total_income' имеют тип данных float. Для удобства проведения с ними математических
операций, изменили тип данных на int (целочисленный).

### Обработка дубликатов

При выводе на экран первых строк датасета, заметили, что значения в столбце образование написаны разным регистром. Приведем все значения к нижнему регистру.

In [None]:
data['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [None]:
data['education'] = data['education'].str.lower()
data['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Проверим остальные столбцы.

In [None]:
data['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [None]:
data['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

Выведем количество дубликатов.

In [None]:
data.duplicated().sum()

71

In [None]:
data = data.drop_duplicates().reset_index(drop=True)

In [None]:
data.duplicated().sum()

0

### Вывод

Дубликаты могли появиться вследствие сбоя в записи данных. Дубликаты удалили. Привели значения столбца "education" к нижнему регистру.

### Лемматизация

В этом блоке проведем лемматизацию данных столбца с целями кредита, чтобы в итоге можно было 
корректно провести исследование зависимости наличия долга по кредиту от целей его взятия.
Выведем на экран список уникальных значений столбца "purpose".
Замечаем, что одинаковые цели имеют разное написание.

In [None]:
data['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Заметили, что все цели можно сгруппировать в несколько крупных групп. Но так как цели имеют разное написание, необходимо провести лемматизаццию.

In [None]:
from pymystem3 import Mystem
m = Mystem()

In [None]:
text_lemmas = ''
for element in data['purpose'].unique():
    text_lemmas = text_lemmas + ',' + element
text_lemmas

',покупка жилья,приобретение автомобиля,дополнительное образование,сыграть свадьбу,операции с жильем,образование,на проведение свадьбы,покупка жилья для семьи,покупка недвижимости,покупка коммерческой недвижимости,покупка жилой недвижимости,строительство собственной недвижимости,недвижимость,строительство недвижимости,на покупку подержанного автомобиля,на покупку своего автомобиля,операции с коммерческой недвижимостью,строительство жилой недвижимости,жилье,операции со своей недвижимостью,автомобили,заняться образованием,сделка с подержанным автомобилем,получение образования,автомобиль,свадьба,получение дополнительного образования,покупка своего жилья,операции с недвижимостью,получение высшего образования,свой автомобиль,сделка с автомобилем,профильное образование,высшее образование,покупка жилья для сдачи,на покупку автомобиля,ремонт жилью,заняться высшим образованием'

Напишем функцию, которая будет лемматизировать строки столбца с целями кредита, получим список лемм и с помощью условных операторов проверим вхождение конкретных лемм в этот список. При их наличии функция будет возвращать название конкретной категории. И в конце применим функцию с помощью метода .apply к столбцу 'purpose' и добавим новый столбец с категориями, которые впоследствие будем группировать. Выделим следующие категории: автомобиль, жилье и недвижимость объединим в одну категорию, свадьба и образование, а также выделим отдельно другую категории при отсутвии подходящей.

In [None]:
def lemmatization(text):
    lemmas = ' '.join(m.lemmatize(text))
       
    if 'автомобиль' in lemmas:
        return 'автомобиль'
    elif ('недвижимость' in lemmas) or ('жилье' in lemmas):
        return 'недвижимость'
    elif 'свадьба' in lemmas:
        return 'свадьба' 
    elif 'образование' in lemmas:
        return 'образование'
    else:
        return 'другая категория'
    
data['lemmas'] = data['purpose'].apply(lemmatization)

Проверим наличие нового столбца 'lemmas'

In [None]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость


### Вывод

Провели лемматизацию целей кредита. Разделили их на 4 категории: недвижимость, автомобили, свадьба и образование.

### Категоризация данных

Проведем категоризацию.
Напишем функцию для столбца "children", которая на вход будет принимать количество детей и возвращать 3 группы(нет детей, 1 ребенок, 2 и более ребенка).

In [None]:
def children_group(children):
    if children == 0:
        return "нет детей"
    if children == 1:
        return "1 ребенок"
    if children >= 2:
        return "2 и более ребенка"
    return "другое"
data['children_group'] = data['children'].apply(children_group)
data.head()
    
    

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas,children_group
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,1 ребенок
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,1 ребенок
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,нет детей
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,2 и более ребенка
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,нет детей


В столбце "income_type" выделим несколько групп по суммам дохода. Напишем функцию для категоризации столбца, как в предыдущем коде.

In [None]:
def income_group(income):
    if income <= 50000:
        return "0-50 000"
    if income > 50000 and income <= 100000:
        return "50 000-100 000"
    if income > 100000 and income <= 500000:
        return "100 000-500 000"
    if income > 500000 and income <= 1000000:
        return "500 000 - 1000000"
    if income > 1000000:
        return "больше 1 000 000"
    return "другое"
data['income_group'] = data['total_income'].apply(income_group)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas,children_group,income_group
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,1 ребенок,100 000-500 000
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,1 ребенок,100 000-500 000
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,нет детей,100 000-500 000
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,2 и более ребенка,100 000-500 000
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,нет детей,100 000-500 000


### Вывод

Количественные данные, которые нам необходимы для исследования (количество детей и сумма дохода), объединили в несколько категорий.

### Шаг 3. Ответьте на вопросы

- ### Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [None]:
data.groupby('children_group')['debt'].agg(['count', 'sum', 'mean'])

Unnamed: 0_level_0,count,sum,mean
children_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1 ребенок,4855,445,0.091658
2 и более ребенка,2508,233,0.092903
нет детей,14091,1063,0.075438


В сводной таблице сделали группироку таких значений, как общее количество бравших кредит(count), количество должников(sum) и доля должников по отношению к общему количеству(mean).Исходя из сводной таблицы видим, что меньше всего долгов у тех, у кого нет детей, а в других двух группах значения почти одинаковые. Добавим столбец с семейным положением, чтобы посмотреть зависимость от двух столбцов одновременно.

In [None]:
data.groupby(['children_group', 'family_status'])['debt'].agg(['count', 'sum', 'mean'])

Unnamed: 0_level_0,Unnamed: 1_level_0,count,sum,mean
children_group,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1 ребенок,Не женат / не замужем,454,52,0.114537
1 ребенок,в разводе,316,21,0.066456
1 ребенок,вдовец / вдова,81,7,0.08642
1 ребенок,гражданский брак,1000,118,0.118
1 ребенок,женат / замужем,3004,247,0.082224
2 и более ребенка,Не женат / не замужем,94,12,0.12766
2 и более ребенка,в разводе,95,9,0.094737
2 и более ребенка,вдовец / вдова,31,3,0.096774
2 и более ребенка,гражданский брак,421,41,0.097387
2 и более ребенка,женат / замужем,1867,168,0.089984


### Вывод

Исходя из данных, можно сделать вывод, что у неимеющих детей долгов по кредитам меньше. Если сравнивать одновременно с семейным положением, то можно сказать, что у неженатых долгов больше. И чем больше детей в семье, тем чаще такие семьи (неполные) имеют долги по кредиту.

- ### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [None]:
family_debt = data.groupby(['family_status_id', 'family_status'])['debt'].agg(['count', 'sum', 'mean'])
family_debt

Unnamed: 0_level_0,Unnamed: 1_level_0,count,sum,mean
family_status_id,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,женат / замужем,12339,931,0.075452
1,гражданский брак,4151,388,0.093471
2,вдовец / вдова,959,63,0.065693
3,в разводе,1195,85,0.07113
4,Не женат / не замужем,2810,274,0.097509


In [None]:
# напишем функцию, которая будет проводить группировку по заданным столбцам и выводить сводную таблицу
def group_data(row1, row2):
    result = data.groupby(row1)[row2].agg(['count', 'sum', 'mean'])
    return result
print(group_data('family_status', 'debt'))

                       count  sum      mean
family_status                              
Не женат / не замужем   2810  274  0.097509
в разводе               1195   85  0.071130
вдовец / вдова           959   63  0.065693
гражданский брак        4151  388  0.093471
женат / замужем        12339  931  0.075452


### Вывод

Таблица показывает зависимость семейного положения и наличия задолженности по кредиту.
Исходя из таблицы можем сделать вывод, что больше всех имеют долги по кредитам такие категории граждан, как неженатые(незамужние) и живущие в гражданском браке(по 9 %, смотрим столбец 'mean').
Меньше всего доля должников среди вдовцов(6%). Стоит отметить, что столбец "sum" не является наглядным для того, чтобы делать вывод о количестве должников, так как показывает лишь число долгов в данной групе, но не учитывает вес категории. Поэтому лучше смотреть среднее арифметическое(долю, отношение количества должников к к общему количеству взявших кредит).

- ### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [None]:
data.groupby('income_group')['debt'].agg(['count', 'sum', 'mean'])

Unnamed: 0_level_0,count,sum,mean
income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0-50 000,372,23,0.061828
100 000-500 000,16769,1373,0.081877
50 000-100 000,4091,331,0.080909
500 000 - 1000000,197,12,0.060914
больше 1 000 000,25,2,0.08


### Вывод

По представленной сводной таблице сложно судить о влиянии суммы дохода на наличие долгов по кредиту. Можно только выделить две группы (с низким доходом и достаточно высоким), которые реже имеют долги по кредиту(6%), остальные же имеют почти одинаковые значения(8%)

- ### Как разные цели кредита влияют на его возврат в срок?

In [None]:
data.groupby('lemmas')['debt'].agg(['count', 'sum', 'mean'])

Unnamed: 0_level_0,count,sum,mean
lemmas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,4306,403,0.09359
недвижимость,10811,782,0.072334
образование,4013,370,0.0922
свадьба,2324,186,0.080034


### Вывод

Из таблицы можно сделать вывод, что гораздо чаще люди берут кредит на недвижимость (почти половина всех клиентов). Эта же группа и выплачивает кредиты наиболее ответственно. Среди клиентов, берущих кредиты на автомобиль и образование чаще встречаются должники.

In [None]:
data.groupby('education')['debt'].agg(['count', 'sum', 'mean'])

Unnamed: 0_level_0,count,sum,mean
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
высшее,5250,278,0.052952
начальное,282,31,0.109929
неоконченное высшее,744,68,0.091398
среднее,15172,1364,0.089902
ученая степень,6,0,0.0


Проверили зависимость наличия кредитного долга от образования. Прослеживается очень интересная зависимость. Чем образованнее клиент, тем меньше среди таких категорий граждан встречается должников. Например, больше всего долгов у тех лиц, которые имеют только начальное образование. А среди клиентов с ученой степенью (их число, правда, совсем небольшое, 6 человек) должников нет вообще.

### Шаг 4. Общий вывод

В ходе данного проекта исследования попытались найти зависимость возврата кредита в срок, зная информацию об определенных данных клиента. Для начала выполнили все необходимые операции по предобработке данных(изменили некорректные данные, заполнили пропуски, удалили дубликаты, заменили типы данных, проведи лемматизацию целей кредита и сформировали категории для группировки). Затем сгруппировали сводные таблицы для анализа данных и ответили на поставленные вопросы.
В заключение, можно сказать, что наиболее надежные заемщики это женатые люди (также вдовцы и люди в разводе, но суммарное количество таких клиентов в несколько раз ниже), без детей и с высшим образование независимо от суммы дохода, решившие взять кредит для покупки новой квартиры.