# Исследование надёжности заёмщиков

<b> Описание исследования </b>

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

<b>Цель исследования</b>

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

<b> Задачи исследования</b>

 * выявить зависимость между наличием детей и возвратом кредита в срок
 * выявить зависимость между семейным положением и возвратом кредита в срок
 * выявить зависимость между уровнем дохода и возвратом кредита в срок
 * определить как разные цели кредита влияют на его возврат в срок

<b>Данное исследование разделим на несколько частей:</b>

<b> Часть 1. Изучение общей информации:</b>

 [ Изученеие файлов с данными, получение общей информации, загрузка библиотек.](#step_1)
 
<b> Часть 2. Подготовка данных:</b>

 [1. Нахождение и ликвидация пропусков.](#step_2)
 
 [2. Приведение данных к нужным типам.](#step_3)
 
 [3. Нахождение и исправление аномалий и ошибок.](#step_4)
 
 [4. Лемматизация данных по видам выдаваемых кредитов.](#step_5)
 
 [5. Категоризация данных.](#step_6)
 
 <b> Часть 3. Ответы на задачи исследования:</b>

 [1. Существует ли зависимость между наличием детей и возвратом кредита в срок.](#step_7)
 
 [2. Существует ли зависимость между семейным положением и возвратом кредита в срок.](#step_8)
  
 [3. Существует ли зависимость между уровнем дохода и возвратом кредита в срок.](#step_9)
   
 [4. Существует ли зависимость между разными целиями кредита и его возврат в срок.](#step_10)
 
 <b> Заключение </b>
 
 [ Общие выводы по проведенному исследованию.](#step_11)

<a id="step_1"></a>
## Шаг 1. Откройте файл с данными и изучите общую информацию

In [1]:
#импортируем библитеку pandas
import pandas as pd

#отключаем предупреждения об изменении отфильтрованных данных
pd.options.mode.chained_assignment = None

# читаем наш файл в переменную 'data'
data = pd.read_csv('/datasets/data.csv')

#вывод на экран первых 10 строк датафрейма
display (data.head(10))

#вывод на экран последних 10 строк датафрейма
display (data.tail(10))

#выводим общую информацию по датафрейму
data.info()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод**

Из присланных данных мы знаем описания столбцов датафрейма.

При выводе первых 10 и последних 10 строк датафрейма мы видим:

 * В данных столбца 'days_employed' присутствуют положительные и отрицательные значения.

 * Данные в столбце 'education' записаны как строчными буквами и прописными, так и смешано.
 
 * Также мы получили общую информацию по структуре данных столбцов таблицы.
 
 * В столбцах 'days_employed' и 'total_income' есть пропущенные данные и они составляют около 10% всех данных каждый.
 
Т.к. по условиям задания у нас нет целей выявления зависимостей возврата кредита от дней стажа и уровня образования мы оговорим 

данные моменты как рекомендации соответствующим службам обратить внимание на заполнение данных граф:

 * разобраться в форматах (возможных ошибках при заполнение графы: 'общий трудовой стаж в днях'
 * привести в единообразное соответстие заполнение графы: 'уровень образования клиента'

<a id="step_2"></a>
## Шаг 2. Предобработка данных

### Обработка пропусков

In [2]:
#заменяем пустые значения в стобце 'days_employed' на значение 'Нет данных',
#т.к. эти данные не представляют для нас ценности в условиях решения задачи
data['days_employed'] = data['days_employed'].fillna(value='Нет данных')

#принимаем в пеерменную 'data_NaN' датафрейм отфильтрованный по отсутствующим данным в столбце 'days_employed'
data_NaN = data [data ['days_employed'] == 'Нет данных']

#выводим уникальные значения по столбцу 'total_income'
display (data_NaN ['total_income'].unique())

#выводим уникальные значения по столбцу 'income_type'
display (data_NaN ['income_type'].unique())

#заменяем все пустые значения в столбце 'total_income' на их медианные значения по группам из 'income_type'
data['total_income'] = data.groupby('income_type')['total_income'].transform(lambda x: x.fillna(x.median()))

#выводим первые 10 строк датафрейма для наглядности
display (data.head (10))

#проверяем, все ли у нас заполненно и правильно ли заполненно
data.info()

array([nan])

array(['пенсионер', 'госслужащий', 'компаньон', 'сотрудник',
       'предприниматель'], dtype=object)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.67,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.8,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.75,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.186,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.2,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.78,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.87,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.76,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null object
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(1), int64(5), object(6)
memory usage: 2.0+ MB


**Вывод**

Из анализа данных озвученных ранее, мы выяснили, что имеются пропуски данныз в столбцах 'days_employed' и 'total_income'.

В процессе обработки данных мы заменили пропуски:

 * В данных столбца 'days_employed' на значения 'Нет данных', т.к. эти данные не представляют для нас ценности в условиях решения задачи.

 * Данных в столбце 'total_income' на значения медиан (т.к. медиана это число, характеризующее выборку (например, набор чисел) и является надежным показателем центрального местоположения в последовательности и меньше зависит от наличия "всплесков" в элементах). Медианы расчитываем для каждой группы заемщиков отдельно, т.к. это данные нам необходимы для дальнейшего анализа, а именно: выявить зависимость между уровнем дохода и возвратом кредита в срок.

В процессе исследования заполнения столбцов 'total_income', 'days_employed' и 'income_type' выясняется,
что пропуски данных по столбцам 'days_employed' четко соотносяься с пропусками данный по столбцам 'total_income'.

Из этого сделаем предположение о том, что данные заемщики в момент получения кредита являлись безработными.

<a id="step_3"></a>
### Замена типа данных

In [3]:
#переводим все значения столбца total_income' в int для лучшей наглядности и последующей группировки
data ['total_income'] = data ['total_income'].astype(int)

#переведем значения столбца 'education' к единому формату, а именно в нижний регистр
data ['education'] = data['education'].str.lower()

#в последующих шагах, мы выясним, что в столбце 'children' имеется отрицательное значение, исправим это
data ['children'] = data ['children'].replace (-1, 1)
#в последующих шагах, мы выясним, что в столбце 'children' имеется значение '20',
#видимо - это оштбка, заменим данное число на медианное значение числа детей в семье, т.к.
#это может быть и '2' и '0'
data ['children'] = data ['children'].replace (-1, 1)
children_median = data.loc[data.loc[:, 'children'] != 20]['children'].median()
data['children'] = data['children'].replace(20, children_median)

display (data['gender'].unique ())#выводим на экран уникальные значения столбца 'gender'
display (data[data['gender'] == 'XNA'])#посмотрим на строку с данным значением

data = data [data ['gender'] != 'XNA'].reset_index(drop=True)#удалим строку, содержащую ['gender'] == 'XNA'.

#выведем первые 5 строк датафрема для проверки
display (data.head())

array(['F', 'M', 'XNA'], dtype=object)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,-2358.6,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.67,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024.8,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623.42,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124.75,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


**Вывод**

В процессе обработки данных мы заменили все значения столбца total_income' в int. Это было сделано по причинам:

 * Для лучшей наглядности.

 * Для последующей группировки.

Выбрали метод astype () по причине удобства пеервода в целые числа.

Привели значения столбца 'education' к единому формату, а именно пеервели в нижний регистр

Привели значения столбца 'children' в соответствие.

<a id="step_4"></a>
### Обработка дубликатов

In [4]:
#выявим дубликаты в датафрейме
display (data.duplicated().sum ())
duplicated_data = data[data.duplicated()]
display (duplicated_data)

#удалим дубликаты
data = data.drop_duplicates().reset_index(drop=True)

71

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,Нет данных,41,среднее,1,женат / замужем,0,F,сотрудник,0,142594,покупка жилья для семьи
3290,0,Нет данных,58,среднее,1,гражданский брак,1,F,пенсионер,0,118514,сыграть свадьбу
4182,1,Нет данных,34,высшее,0,гражданский брак,1,F,сотрудник,0,142594,свадьба
4851,0,Нет данных,60,среднее,1,гражданский брак,1,F,пенсионер,0,118514,свадьба
5557,0,Нет данных,58,среднее,1,гражданский брак,1,F,пенсионер,0,118514,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
20701,0,Нет данных,64,среднее,1,женат / замужем,0,F,пенсионер,0,118514,дополнительное образование
21031,0,Нет данных,60,среднее,1,женат / замужем,0,F,пенсионер,0,118514,заняться образованием
21131,0,Нет данных,47,среднее,1,женат / замужем,0,F,сотрудник,0,142594,ремонт жилью
21280,1,Нет данных,30,высшее,0,женат / замужем,0,F,сотрудник,0,142594,покупка коммерческой недвижимости


**Вывод**

В процессе обработки данных мы выявили в датафрейме 71 дубликата.

Скорее всего эти дубликаты появились в процессе заполнения пустых значений в столбце 'tal_income' медианными значениями.

Выбрали метод drop_duplicates(), т.к. количество дубликатов в датафрейме ничтожно мало и они, скорее всего, появились из-за наших действий.

<a id="step_5"></a>
### Лемматизация

In [5]:
#импортируем библиотеку pymystem3
from pymystem3 import Mystem
m = Mystem() #вызов библиотеки объявляем до цикла

#пишем цикл для нахождения лемм
for i in range (data.shape[0]):
    lemmas = m.lemmatize (data['purpose'][i]) #находим леммы по строкам
    data.loc[i, 'lemmas'] = ','.join(lemmas) #добавляем строку и столбец со значениями лемм

display (data ['lemmas'].head(10)) #выводим для проверки

0                  покупка, ,жилье,\n
1        приобретение, ,автомобиль,\n
2                  покупка, ,жилье,\n
3     дополнительный, ,образование,\n
4                сыграть, ,свадьба,\n
5                  покупка, ,жилье,\n
6             операция, ,с, ,жилье,\n
7                      образование,\n
8        на, ,проведение, ,свадьба,\n
9    покупка, ,жилье, ,для, ,семья,\n
Name: lemmas, dtype: object

**Вывод**

Для последующих исследований мы нашли леммы в значениях столбца 'purpose'.
Леммы находили для каждой строки датафрейма путем перебора.
Т.к. нам с ими еще предстоит работать, вынели их в отдельный столбец.

<a id="step_6"></a>
### Категоризация данных

In [6]:
display (data.groupby ('lemmas')['debt'].count()) #выведем на экран основные цели кридита

#создадим функцию по переименованию столбца со значениями лемм в упрощенный вид
def cat (lammas):
   for i in range (data.shape[0]):
        if lammas in data.loc [i, 'lemmas']:
            data.loc [i, 'lemmas'] = lammas
#задаем значения фукции по основным целям кредита
cat ('жилье')
cat ('автомобиль')
cat ('образование')
cat ('свадьба')
cat ('недвижимость')

#т.к. цели на жилье и недвижимость есть одно и тоже, то объединим эти две цели в одну
data ['lemmas'] = data ['lemmas'].replace ('жилье', 'недвижимость')

#проверим готовый вариант
display (data.groupby ('lemmas')['debt'].count())

#подготовим для категоризации данных таблицу со значениями столбцов 'total_income' и 'debt'
data_income = data [['total_income', 'debt']]

total_income_nominal = 51083 #средняя номинальная зарплата в 2020 году по данным Росстата

total_income_median = data_income ['total_income'].median ()#медианное значение уровня дохода
display (total_income_median)

#создаем функцию по распределению уровня дохода
def income_group_id (income):
    if income < total_income_nominal:
        return 'низкий'
    if total_income_nominal <= income <= total_income_median:
        return 'средний'
    return 'высокий'

#добавляем столбец с категоризированными данными по уровню дохода
data_income ['income_group_id'] = data_income ['total_income'].apply (income_group_id)
display (data_income.head (10))

lemmas
автомобиль,\n                                    972
высокий, ,образование,\n                         452
дополнительный, ,образование,\n                  460
жилье,\n                                         646
заниматься, ,высокий, ,образование,\n            496
заниматься, ,образование,\n                      408
на, ,покупка, ,автомобиль,\n                     471
на, ,покупка, ,подержать, ,автомобиль,\n         478
на, ,покупка, ,свой, ,автомобиль,\n              505
на, ,проведение, ,свадьба,\n                     768
недвижимость,\n                                  633
образование,\n                                   447
операция, ,с, ,жилье,\n                          652
операция, ,с, ,коммерческий, ,недвижимость,\n    650
операция, ,с, ,недвижимость,\n                   675
операция, ,со, ,свой, ,недвижимость,\n           627
покупка, ,жилой, ,недвижимость,\n                606
покупка, ,жилье,\n                               646
покупка, ,жилье, ,для, ,сдача,\n       

lemmas
автомобиль       4306
недвижимость    10810
образование      4013
свадьба          2324
Name: debt, dtype: int64

142594.0

Unnamed: 0,total_income,debt,income_group_id
0,253875,0,высокий
1,112080,0,средний
2,145885,0,высокий
3,267628,0,высокий
4,158616,0,высокий
5,255763,0,высокий
6,240525,0,высокий
7,135823,0,средний
8,95856,0,средний
9,144425,0,высокий


**Вывод**

Категоризировали данные для дальнейших исследований в отдельные таблицы:
* по целям кредитования по основным целям кредита
* по количеству детей у заемщиков
* по семейному положению
* по получаемому доходу

## Шаг 3. Ответьте на вопросы

<a id="step_7"></a>
- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [7]:
#создадим сводую таблицу по количеству детей у заемщика, с подсчетом среднего по возврату кредита в срок
data_children = data.pivot_table (index='children', values='debt', aggfunc='mean')
display (data_children)

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.075604
1,0.091658
2,0.094542
3,0.081818
4,0.097561
5,0.0


**Вывод**

Проанализировав данные, присланные нам банком мы видим, что с количеством увеличения детей у заемщика растет доля просроченных кредитов. Исключением составляют заемщики, имеющие 3-х детей.
Поэтому однозначно можно сделать вывод о том, что от наличие детей у заемщиков зависит воозврат кредита в срок.

<a id="step_8"></a>
- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [8]:
#создадим сводую таблицу по семейному положению у заемщика, с подсчетом среднего по возврату кредита в срок
data_family = data.pivot_table (index='family_status', values='debt', aggfunc='mean')
display (data_family)

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
Не женат / не замужем,0.097509
в разводе,0.07113
вдовец / вдова,0.065693
гражданский брак,0.093494
женат / замужем,0.075452


**Вывод**

Проанализировав данные, присланные нам банком мы видим, что:
 * большой процент невозврата кредита в срок имеется у не женатых / не замужем и живущих в гражданском браке заемщиков.
 * меньший процент невозврата кредита в срок имеется у заемщиков состоящих в браке, разводе или у вдовцов / вдов

Поэтому однозначно можно сделать вывод о том, что от семейного положения заемщиков зависит воозврат кредита в срок.

<a id="step_9"></a>
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [9]:
#создадим сводую таблицу по уровню дохода заемщика, с подсчетом среднего по возврату кредита в срок
data_income = data_income.pivot_table (index='income_group_id', values='debt', aggfunc='mean')
display (data_income)

Unnamed: 0_level_0,debt
income_group_id,Unnamed: 1_level_1
высокий,0.078322
низкий,0.065217
средний,0.084668


**Вывод**

Проанализировав данные, присланные нам банком мы видим, что заемщики с низким доходом возвращают чаще кредиты в срок, с высоким - чуть реже. Самый большой процент невозврата кредита в срок - у заемщиков со среднем достатком.

Поэтому однозначно можно сделать вывод о том, что разный уровень дохода заемщиков влияет на воозврат кредита в срок.

<a id="step_10"></a>
- Как разные цели кредита влияют на его возврат в срок?

In [10]:
#создаем таблицу по целям кредита
data_purpose = pd.DataFrame()

#создадим столбец с суммой по просроченным кредитам
data_purpose ['sum_purpose_category'] = data.groupby('lemmas')['debt'].sum()

#создадим столбец с числом всех кредитов
data_purpose ['count_purpose_category'] = data.groupby('lemmas')['debt'].count()

#создаем столбец с расчетом процентов неотданных кредитов в срок по целям
data_purpose ['result_purpose_category'] = data_purpose ['sum_purpose_category'] / data_purpose ['count_purpose_category'] * 100

data_purpose.sort_values('result_purpose_category', ascending = False)

Unnamed: 0_level_0,sum_purpose_category,count_purpose_category,result_purpose_category
lemmas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,403,4306,9.359034
образование,370,4013,9.220035
свадьба,186,2324,8.003442
недвижимость,782,10810,7.234043


**Вывод**

Проанализировав данные, присланные нам банком мы видим, что:
* кредиты на автомобиль и образование имеют самые большие невозвраты в срок
* кредиты на свадьбу меньше
* кредиты на недвижимость платят чаще, чем другие
Поэтому однозначно можно сделать вывод о том, что от разных целей кредита заемщиков зависит воозврат кредита в срок.

<a id="step_11"></a>
## Шаг 4. Общий вывод

Общий вывод:
* чем больше детей, тем чаще платят не в срок, бездетные реже просрачивают оплату
* семейный статус влияет на вероятность платежей по кредиту в срок - люди, бывший в браке чаще плятят в срок чем те, кто не бывали в браке, причем разведенные и овдовевшие платят в срок чаще, чем люди в браке
* от уровеня дохода заемщиков также зависит возврат кредита в срок
* кредиты на автомобиль и образование имеют самые большие невозвраты в срок, а кредиты на недвижимость платят чаще, чем другие

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.